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献 给 设计 和 构建 智能 机 器 的 工程 师 和 研究 员 
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10 多 年 前 ， 我 遇见 了 肖 恩 。 当 时 我 在 谷歌 领导 团队 ， 负 责 开发 为 谷 
歌 的 搜索 广告 业务 提供 支持 的 许多 大 型 机 器 学 习 系 统 。 肖 恩 是 我 们 小 组 
里 最 顶尖 的 工程 师 之 一 ， 当 时 他 正在 研究 机 器 学 习 前 沿 领域 的 一 系列 具 
有 挑战 性 的 问题 。 我 们 一 起 工作 以 来 ， 体 现在 统计 机 器 学 习 技术 中 的 各 
类 人 工 智能 已 经 从 相对 难以 触及 的 神秘 技术 、 研 究 人 员 和 高 科技 公司 的 
专属 领域 ， 发 展 成 为 日 益 平易 近 人 的 、 卓 有 成 效 的 工具 和 技术 ， 值 得 每 
一 位 软件 开发 人 员 使 用 。 


目前 机 需 学 习 领 域 取 得 的 快速 进展 ， 在 一 定 程度 上 是 由 以 下 因素 推 
动 的 : 数据 爆炸 ， 高 性 能 计算 机 体系 结构 的 复兴 ， 云 提供 两 部 相 为 开 友 
人 员 和 研究 人 员 构 建 可 扩展 的 人 工 智能 平台 ， 人 们 将 实时 智能 笠 入 移动 
设备 、 汽 车 、 其 他 消费 电子 产品 和 日 益 普 过 的 连接 到 云端 的 计算 设备 的 
热潮 。 这 种 快速 进步 中 包括 一 些 惊世骇俗 的 成 束 ， 机 器 在 许多 狭窄 的 领 
域 已 经 接近 于 或 超过 了 人 类 的 能 力 ， 例 如 在 图 像 中 标记 物体 、 识 别 语 
首 、 玩 末 略 游戏 以 及 翻译 语言 ， 但 我 们 仍 处 于 这 些 技术 发 展 的 初期 ， 操 
在 我 们 面前 的 是 长 达 几 十 年 的 创新 和 发 现 之 旅 。 

















对 开 有 人员 和 研究 人 员 而 言 ， 理 解 机 融 学 习 的 工作 原理 是 一 个 明智 
的 职业 选择 。 目 前 ， 全 球 的 科技 巨头 公司 对 这 些 技术 的 专业 知识 都 有 很 
高 的 需求 。 微 软 、 亚 马 逊 、 谷 歌 、 苹 果 、 百 度 等 许多 公司 都 提供 应 用 程 
序 接口 、 工 具 包 和 云 计 算 基 础 设施 ， 将 机 器 学 习 的 开发 工作 交 给 全 世界 
数 以 千 万 计 的 开发 人 员 。 未 来 儿 年 ， 随 着 越 来 越 多 的 应 用 程序 包含 智能 
功能 ， 大 多 数 开 发 人 员 都 需要 车 握 一 些 机 需 学 习 技 术 。 这 正 是 这 本 书 的 
宝贵 价值 所 在 。 























这 本 书 诞生 目 肖 恩 对 了 解 现代 机 器 学 习 成 功 之 路 的 渔 望 。 在 用 清晰 
易 信 的 方式 描述 这 些 系统 的 本 质 时 ， 首 恩 利用 10 多 年 的 行业 和 学 术 经 验 
解决 了 机 器 学 习 带 来 的 一 些 最 琼 手 的 问题 。 稚 于 机 器 学 习 系 统 能 够 复制 
菏 些 方面 的 人 类 智能 ， 等 到 茶 个 突破 点 临近 ， 原 本 由 人 类 特有 的 创造 诗 
意 词句 的 能 力 或 许 也 会 被 机 器 复制 。 肖 恩 对 这 些 技术 严谨 实用 的 描述 反 
上 映 了 他 在 科研 战壕 中 的 妈 月 ， 不 时 令 人 感到 痛 兰 的 反复 试验 让 战壕 中 的 
人 们 了 解 到 ， 机 器 学 习 并 不 是 魔法 。 如 果 你 知道 如 何 应 用 它 ， 了 解 它 的 
局 限 所 在 ， 它 就 是 强 有 力 的 前 沿 工具 ;如果 你 不 知道 ， 它 就 几乎 一 文 不 
值 。 


省 恩 通过 列举 现实 世界 的 例子 ， 回 避 不 必要 的 术语 ， 使 现代 机 器 学 
习 的 概念 变 得 通俗 易 懂 。 这 本 书 假设 读者 在 机 器 学 习 或 计算 机 科学 领域 
的 知识 相对 较 少 ， 因 此 对 更 广泛 的 受众 而 言 非常 友好 。 和 鉴于 当前 围绕 机 
铝 学 习 和 人 工 乔 能 的 对 话 鼎 为 活跃， 并 且 这 些 技术 可 能 对 我 们 的 未 来 产 
生 影响 ， 任 何 想 要 参与 这 场 对 话 的 人 都 应 该 尽 可 能 地 学 习 。 由 于 市 场 上 
缺乏 对 机 器 学 习 通 俗 易 懂 的 专业 介绍 ， 这 本 书 将 成 为 引导 你 理解 底层 技 
术 的 理想 方法 ， 它 可 以 帮助 你 更 好 地 判断 哪些 言论 值得 相信 ， 哪 些 说 得 
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2010 年 的 一 个 晚上 ， 这 本 书 的 种 子 播种 在 了 计算 机 科学 系 顶 层 的 人 
工 智 能 研究 实验 室 里 。 当 时 ， 我 刚刚 参加 了 一 些 关 于 目 动 驾驶 汽车 的 研 
We, Wenn Le RA a, TERMI EWER. RET 
的 最 好 的 解释 是 卡 内 基 - 梅 隆 大 学 和 斯 坦 福 大 学 的 一 些 研究 人 员 撰 写 的 
学 术 论 文 。 我 看 了 儿 分 钟 ， 对 目 动 驾驶 汽车 的 工作 原理 有 了 些 粗浅 的 认 
识 ， 然 后 便 离开 了 。 














但 随 着 时 间 的 推移 ， 我 发 现 自己 三 番 五 次 地 重复 这 个 过 程 。 每 当 看 
到 媒体 报道 人 工 智能 或 机 器 学 习 领 域 的 一 个 个 突破 时 ， 我 就 会 回 到 同一 
个 问题 : 它们 是 如 何 工 作 的 ? 令 我 感到 奇怪 的 是 ， 我 花 了 无 数 时 间 在 学 
术 界 和 产业 界 研究 和 实践 机 器 学 习 ， 但 我 仍然 不 能 坚定 连 员 地 回答 这 个 
问题 。 我 想 ， 或 许 我 对 人 工 重 能 和 机 器 学 习 的 了 解 不 如 我 本 应 了 解 的 那 
么 多 ， 又 或 许 大 学 谍 程 没有 教授 我 们 全 面 的 知识 。 大 多 数 关 于 这 些 主题 
的 大 学 课程 只 教授 这 些 突 破 背 后 的 构件 ， 而 不 教授 如 何 将 这 些 构件 组 合 
在 一 起 去 做 有 趣 的 事情 。 


但 还 有 为 一 个 更 根本 的 原因 ， 即 我 无 法 弄 清 楚 它 们 的 工作 原理 :这 
些 突破 中 的 大 多 数 确实 涉及 开创 性 的 研究 ， 我 们 根本 不 知道 如 何 构建 它 
们 ， 直 到 研究 人 员 找 到 了 方法 、 撰 写 了 过 程 或 构建 了 原型 。 这 就 是 为 什 
么 研究 人 员 一 直 在 同行 评议 期 刊 上 发 表 关 于 这 些 突破 的 文章 ， 因 为 这 些 
文章 新 颖 、 有 影响 力 、 非 显而易见 《而 且 是 经 过 同行 评议 的 ) 。 但 是 ， 
这 些 突破 背后 的 细 市 一 经 发 表 束 会 修 随 意 散 布 在 许多 不 同 的 来 源 中 ， 因 
此 仍然 无 济 于 事 。 

















最 终 ， 我 意识 到 应 该 把 上 自己 在 研究 中 学 到 的 东西 与 他 人 分 译 ， 这 样 


他 们 就 无 须 为 了 理解 相同 的 东西 而 跨越 同样 的 障碍 。 换 言 之 ， 我 写 这 本 
书 的 原因 是 ， 这 古 一 本 如 果 我 不 懂 机 器 学 习 我 将 会 想 读 的 书 。 





于 是 我 写 了 这 本 书 ， 希 望 它 能 够 帮助 那些 对 广义 上 的 科学 技术 感 兴 
趣 的 人 ， 无 论 老少 ; 或 者 那些 想 要 更 多 地 了 解 机 占 学 习 和 人 工 乔 能 是 否 
会 对 他 们 的 公司 有 帮助 的 行业 领导 者 。 这 本 书 旨 在 让 广大 读者 都 能 读 

展 ， 无 论 是 满怀 好 奇 心 的 高 中 生 ， 还 是 退休 的 机 械 工程 师 。 虽 然 了 解 一 
些 计算 机 科学 会 有 所 帮助 ， 但 阅读 本 书 唯 一 的 前 提 条 件 是 好 奇 心 和 一 点 
专注 力 。 我 有 意 把 这 本 书 中 涉及 的 数学 知识 保持 在 最 低 限 度 ， 以 便 向 普 
通读 者 更 好 地 传达 核心 思想 。 


机 需 人 、 人 工 知 能 和 机 器 学 习 领 域 的 专家 通 币 比 较 了 解 我 将 要 描述 
的 一 些 算 法 的 实现 细节 ， 但 是 对 他 们 中 的 许多 人 而 言 ， 其 余 的 叙述 和 对 
整个 系统 的 设计 可 能 仍然 是 陌生 的 《除非 这 是 他 们 的 研究 领域 ) 。 我 希 
望 这 本 书 能 为 大 家 带 来 一 些 新 东西 。 


1 目 动 机 的 秘密 


Tii 


1737 年 ， 在 工业 革命 的 黎明 时 分 ， 法 国 的 机 械 天 才 雅 克 : 德 : 活 康 松 
(Jacques de Vaucanson) 完成 了 一 件 杰 作 : 一 尊 可 以 像 真 人 一 样 用 长 笛 
演奏 音乐 的 塑像 。 只 见 这 尊 真 人 大 小 的 塑像 把 真实 的 长 笛 举 到 嘴 边 ， 接 
着 便 用 它 的 机 械 肺 把 空气 送 入 乐器 ， 吹 出 一 个 个 音符 。 通 过 移动 嘴 层 ， 
调整 吹 气 的 力度 ， 控 制 手指 精确 地 在 长 币 孔 上 移动 ， 塑 像 可 以 吹出 一 系 
列 音符 ， 组 成 一 首 完整 的 乐曲 , “其 吹奏 过 程 就 像 人 类 乐 手 的 演奏 一 样 
完美 “三 。 添 康 松 并 不 满足 于 塑像 只 会 用 长 笛 演 奏 一 首 乐 曲 ， 于 是 赋予 
了 塑像 演奏 12 首 不 同 乐 曲 的 能 力 。 三 


对 公众 而 言 ， 像 长 笛 演 和 夺 者 这 样 的 朔 置 他 们 并 非 第 一 次 见 ， 但 是 这 
个 装置 很 特别 。 他 们 把 这 种 机 幽 称 为 目 动机 ， 而 且 爱 不 释 手 。 操 弄 这 类 
装置 已 经 成 为 整个 欧洲 富裕 阶层 的 一 种 爱好 。 三 有 一 段 时 间 ， 沃 康 松 向 
一 小 部 分 观众 收取 相当 于 一 周 薪水 的 费用 ， 让 他 们 观看 他 那 奇 怪 的 装 
置 。 它 那 自 然 的 运动 和 复杂 的 行为 对 当时 的 人 们 来 说 完全 属于 未 知 的 领 
域 。 最 终 ， 添 康 松 在 欧洲 的 其 他 地 区 巡回 展 出 了 长 笛 演 委 者 和 其 他 几 人 台 
目 动机 。 


TE Briss oe uu LIEN? 它 是 黑 魔法 吗 ? 在 那 10 年 以 前 ， 一 位 教 
会 官员 曾 下 令 揭 毁 了 生 康 松 的 一 个 工作 坊 ， 因 为 他 认为 这 是 变 污 神灵 ， 
所 以 添 康 松 肯 定 不 会 再 做 任何 看 起 来 太 像 魔法 的 事情 。 它 是 骗局 吗 ? uL 
在 长 华 演 委 者 诞生 之 前 的 几 年， 一 合 看 似 能 演奏 大 键 蕉 的 目 动 乐 属 曾 让 
法 国 国王 路 易 十 五 颇 为 着 迷 。 国 王 坚 持 要 了 解 这 台 装 置 的 工作 原理 ， 最 
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流畅 目 然 ， 当 沃 康 松 展 示 它 的 内 部 机 制 时 ， 它 显然 只 是 在 遵循 编码 到 其 
机 械 内 脏 中 的 一 系列 指令 。 


沃 康 松 为 了 进一步 证 明 其 发 明 的 合理 性 ， 向 法 国 科学 院 展 示 了 这 人 台 
目 动机 ， 并 提交 了 一 篇 题 为 《 目 动 长 销 演 奏 者 的 机 理 》 的 论文 。 在 论文 
中 ， 沃 康 松 精确 地 阐释 了 这 台 神 奇 机 费 的 工作 原理 。 塑 像 由 木 涉 和 人 硬 纸 
板 制 成 ， 被 滩 成 大 理 石 的 样子 ， 包 囊 着 皮革 的 指 尖 与 长 笛 孔 形成 密封 。 
自动 机 的 机 械 驱 动 器 由 两 根 旋转 轴 组 成 。 为 了 让 塑像 歇 气 ， 其 中 一 根 轴 
给 三 组 风 箱 打 气 ， 产 生 低 、 中 、 高 三 档 不 同 压力 的 气流 。 这 三 股 气流 合 
在 一 起 形成 一 个 人 工 气 管 ， 被 送 入 塑像 的 口中 。 装 置 的 男 一 根 轴 慢 慢 地 
转动 一 个 表面 带 有 小 螺 柱 的 圆 简 。 当 圆 简 旋转 时 ， 这 些小 螺 柱 会 压 在 15 
根 由 弹 算 承 载 的 杠杆 上 。 通 过 链条 和 线 绕 ， 这 些 杠 杆 可 以 驱动 自动 机 的 
各 个 部 分 。 一 些 杠杆 控制 着 手指 和 嘴唇 的 运动 。 三 剩 下 的 杠杆 决定 了 
低 、 中 、 高 三 档 压 力 中 的 哪 一 档 气 流 应 该 吹 进 长 篆 以 及 闭 置 的 碧 头 应 该 
选择 占据 哪个 位 置 来 改变 气流 。 通 过 将 小 螺 柱 放置 在 旋转 圆 简 上 的 适当 
位 置 ， 添 康 松 可 以 对 塑像 进行 编码 ， 从 而 让 它 演奏 出 他 想 要 的 任何 乐 
曲 。 虽 然 有 些 复 杂 ， 但 它 不 过 是 一 个 巳 大 的 音乐 使。 法 国 科 学 耽 接 受 了 
他 的 论文 ， 并 做 了 精彩 的 评论 。 三 





























沃 康 松 的 杰作 只 是 那个 世纪 的 发 明 家 几 十 年 来 开发 的 许多 自动 机 之 
一 。 自 动机 之 所 以 受 欢 迎 ， 正 是 因为 它 看 起 来 是 完全 自主 的 ， 而 且 它 似 
乎 复制 了 人 类 的 智能 。 长 笛 演 奏 者 和 其 他 类 似 的 自动 机 是 工业 革命 中 的 
人 工 智 能 先驱 : 在 几 十 年 的 时 间 里 ， 随 着 各 类 材料 和 各 种 新 发 明 的 出 
现 ， 目 动机 得 以 成 为 可 能 ， 当 时 的 技术 专家 和 业余 爱好 者 在 他 们 独特 的 
探索 中 使 用 目 动 机 来 复制 我 们 的 身体 和 思想 。 
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今天 的 目 动机 








时 间 快 进 到 今天 。 在 现实 生活 中 ， 自 动 驾 驶 汽车 日 夜 罕 梭 于 硅谷 的 
各 个 城市 。 我 们 用 提供 奖励 的 方法 训练 计算 机 程序 玩 雅 达 利 游戏 ， 最 终 
使 程序 的 游戏 水 平 远 远 超 过 人 类 玩家 ， 就 像 训 练 一 只 狗 坐 下 或 打滚 儿 一 
Ke. TE (feliz) (Jeopardy!) 比赛 节目 中 ， 一 个 计算 机 程序 成 功 击 
败 了 两 位 世界 冠军 。 我 们 开发 出 了 在 古老 的 围棋 中 战胜 最 优秀 的 人 类 棋 
手 的 计算 机 程序 。 与 此 同时 ， 这 些 突破 背后 的 人 工 智能 正在 以 令 人 叹 为 
观 止 的 速度 有 发展， 甚至 对 这 个 领域 的 专家 而 言 也 是 如 此 。 








最 后 这 一 点 怎么 夺 张 也 不 为 过 。 参 加 《人 危险 边 绿 》 比 赛 的 “ 沃 森 * 开 
发 团队 表示 ， 在 他 们 着 手 开发 这 个 系统 之 前 ， 创 建 出 能 够 击败 世界 顶尖 
玩家 的 程序 还 不 可 能 。 许 多 专家 认为 ， 创 建 出 具备 一 定 棋 力 的 计算 机 转 
棋 程 序 需要 再 过 10 年 ，AlphaGo (阿尔 法 围棋 ) 证 明了 这 是 错误 的 ， 这 
个 程序 被 训练 了 几 个 月 ， 随 后 战胜 了 世界 围棋 冠军 李 世 石 。20 个 月 后 ， 
AlphaGo 的 创建 者 开 用 了 程序 的 另 一 个 版 本 ， 它 仅 用 三 天 就 目 学 了 人 类 
数 和 干 年 积累 的 围棋 知识 ， 以 100 比 0 的 成 绩 击败 了 上 一 个 版 本 ， 然 而 它 只 
使 用 了 上 一 个 版 本 10% 的 计算 能 力 。 这 在 一 定 程 度 上 要 归功 于 人 工 神 经 
网 络 的 进步 ， 人 工 神 经 网 络 是 AlphaGo 的 技术 基础 ， 也 是 过 去 10 年 的 研 
客 热 点 。 现 在 这 些 人 工 神经 网 络 不 仅 会 玩 游戏 ， 还 能 够 识别 照片 中 的 图 
像 、 识 别 口语 语音 ， 其 水 平 可 以 与 人 类 妨 














随 着 这 些 突破 不 断 登 上 新 闻 头 条 ， 它 们 也 目 然 而 然 地 激 及 了 我 们 的 
好 奇 心 : 它们 是 如 何 工作 的 ?正如 18 世 纪 的 欧洲 人 对 长 稍 演 奏 者 和 当时 
的 其 他 目 动 机 感到 疑惑 一 样 ， 当 我 们 谈论 这 些 新 型 自动 机 时 ， 那 个 问题 
忆 古 隐藏 在 表面 之 下 ， 巷 而 未 决 。 











幸运 的 是 ， 与 沃 康 松 向 法 国 科学 院 提交 论文 的 方式 如 出 一 徽 ， 这 些 


最 新 进展 的 创造 者 详细 记录 了 构建 智能 计算 机 程序 的 方法 。 这 些 技术 细 
节 分 布 在 许多 不 同 的 地 方 ， 在 本 书 中 ， 我 试图 把 这 些 细节 组 织 起 来 ， 用 
简单 的 术语 说 明智 能 机 器 是 如 何 思考 的 。 














与 里 面 藏 着 5 岁 小 女孩 的 冒牌 自动 机 不 同 ， 你 将 在 本 书 中 看 到 的 突 
破 是 真实 的 科学 进步 。 虽 然 它 们 看 起 来 像 麻 法， 但 是 与 法 国 科学 院 审 碍 
长 华 演 奏 者 一 样 ， 学 术 界 对 这 些 突破 都 进行 了 仔细 的 审查 。 它 们 同 长 茜 
演奏 者 一 样 ， 也 是 目 动机 的 例子 。 目 动机 就 是 目 动 运行 的 机 器 。 它 看 上 
去 总 是 像 人 或 动物 一 样 目 主 运行 ， 似 乎 可 以 独立 思考 。 但 根据 定义 ， 目 
动机 是 遵循 程序 的 。 这 些 程序 是 预 匈 设 定 的 指令 序列 ， 束 像 沃 康 松 为 让 
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正如 我 们 将 要 看 到 的 ， 事 实证 明 ， 技 术 专 家 在 过 去 的 几 个 世纪 里 没 
有 太 大 变化 。 他 们 仍然 在 设计 自动 机 并 给 它们 编程 ， 以 此 复制 人 类 的 思 
想 和 号 体 ， 他 们 有 时 仍然 会 造 出 骨牌 目 动机 。 唯 一 的 区 别 是 ， 技 术 专 家 
己 经 把 工具 升级 为 计算 机 和 运行 在 计算 机 上 的 软件 ， 它 们 是 21 世 纪 的 杠 
杆 、 次 轮 和 发 动机 。 
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18 世 纪 的 自动 机 有 时 会 使 用 当时 尖端 的 精密 技术 一 一 机 械 发 条 ， 来 
执行 它们 的 程序 。 这 些 上 自动 机 是 由 机 械 能 驱动 的 ， 例 如 一 个 被 举 高 的 重 
物 、 用 钥 古 上 琵 的 线圈 。 目 动机 的 创造 者 通常 是 钟表 折 ， 其 撤 术 则 源 目 
钟表 ， 因 为 钟表 每 到 一 个 小 时 惑 尽职 尽责 地 执行 有 趣 的 机 械 序 列 。 钟 表 
从 局 动 前 束 存 储 在 其 内 部 的 势能 中 汲取 能 量 ， 以 此 计时 并 表演 它们 
的 “ 特 搁 ”*"。 它 们 的 发 条 使 其 以 微小 的 增 量 释放 存储 的 能 量 ， 从 而 逐步 执 
行程 序 。 











机 械 钟 利用 钟 摆 的 摆动 来 计时 。 钟 摆 摆 动 的 频率 非常 规律 ， 直 到 20 
世纪 30 年 代 ， 钟 摆 都 是 最 好 的 计时 方法 。 三 钟 摆 每 摆动 一 次 ， 一 系列 的 
门 锁 和 齿轮 就 会 记录 一 个 时 刻 ， 释 放 一 点 储存 的 能 量 ， 这 样 时 钟 就 可 以 
做 一 些 有 趣 的 事情 ， 并 施加 给 钟 摆 一 个 小 小 的 推力 ， 使 它 保持 摆动 。 然 
后 这 个 过 程 重复 进行 。 机 械 手 表 的 工作 原理 与 之 类 似 : 一 根 精 细 的 螺旋 
状 的 弹 引 来 回旋 转 一 个 圆 盘 ， 使 圆 盘 绕 着 它 的 中 心 转动 。 随 着 圆 盘 的 扭 
转 ， 雌 轮 每 次 转动 一 到 两 个 齿 ， 从 而 使 及 条 的 其 余部 分 可 以 做 一 些 有 趣 
的 事情 。 


粗略 地 讲 ， 电 子 计算 机 能 够 运行 程序 也 古 因为 体 循 了 相同 的 机 制 。 
门 锁 和 疮 轮 的 原理 同样 适用 于 计算 机 ， 但 计算 机 并 不 是 像 钟 摆 那 样 安 间 
地 摆动 ， 而 是 利用 了 电子 的 摆动 。 电 子 从 电路 的 一 个 部 分 飞速 移动 到 为 
一 个 部 分 ， 然 后 返回 。 电 子 从 任意 一 个 极端 奔 癌 目的 地 的 中 途 ， 在 移动 
到 电路 男 一 部 分 的 过 程 中 ， 保 持 动量 不 变 。 例 如 ， 电 线 线 疾 (电磁 铁 ) 
或 者 晶体 振荡 器 (经 过 实验 室 培 养 并 且 被 精确 切割 的 沙 粒 〉 的 “弹性 择 
zr", 其 摆动 速度 能 达到 每 秒 数 百 万 次 ， 为 电路 提供 非 第 精确 的 谐振 频 
率 。 这 些 唱 体 振荡 器 取代 了 物理 摆 ， 因 为 它们 对 地 震 、 温 度 变 化 、 飞 机 
和 潜艇 的 加 速度 等 外 力 具有 稳定 的 抵抗 力 ， 而 且 它 们 的 振荡 速度 非常 快 

















(每 秒 数 百 万 次 )。 


每 当 这 些 电子 从 电路 的 一 个 部 分 摆动 到 另 一 个 部 分 ， 类 似 于 机 械 时 
钟 或 手表 中 的 物理 门 锁 的 电子 锁 存 右 束 会 记录 下 这 一 时 刻 ， 计 算 机 就 在 
这 个 时 刻 去 执行 程序 的 下 一 条 指令 。 然 后 指令 计数 器 向 前 移动 ， 时 钟 等 
符 电 子 往 回 摆动 〈 或 者 等 竺 新 电子 取代 它们 的 位 置 ) ， 然 后 重复 这 个 过 


程 。 
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这 些 电子 的 振荡 以 及 它们 实现 的 智能 行为 将 成 为 本 书 的 重点 。 在 本 
书 中 ， 我 们 根本 不 会 看 到 这 些 程序 的 低级 指令 ， 即 程序 员 为 创建 程序 而 
编写 的 变量 和 函数 名 以 及 程序 生成 的 机 器 代码 。 但 我 们 将 会 看 到 组 成 自 
动机 的 中 间 构 件 ， 它 们 本 质 上 是 更 高 一 级 的 “统计 学 的 齿轮 和 风 箱 ”。 通 
过 了 解 组 成 这 些 上 自动 机 的 构件 ， 我 希望 你 能 够 更 好 地 了 解 其 他 现代 自动 
机 的 工作 原理 。 例 如 ， 既 然 你 已 经 知道 了 沃 康 松 发 明 的 长 第 演奏 者 的 工 
作 原 理 ， 就 可 能 对 他 那 只 著名 的 “吃食 鸭 ”(Digesting Duck) 的 部 分 工作 
原理 做 出 一 些 有 根据 的 猜测 。 这 全 上 自动 机 看 起 来 能 拍打 翅膀 、 嘎 嘎 叫 、 
进食 、 消 化 食物 ， 而 且 还 能 排便 。 渤 ， 





沃 康 松 的 目 动机 无 法 对 世界 做 出 反应 。 他 那个 时 代 的 自动 机 遵循 的 
是 简单 的 、 预 先 设 定好 的 一 系列 步骤 。 现 代 的 自动 机 能 够 对 不 断 变 化 的 
环境 做 出 反应 ， 因 为 它们 具有 感知 能 力 。 它 们 不 仅 能 对 键盘 上 按 下 的 按 
键 做 出 反应 ， 还 能 对 汽车 和 行人 穿 过 拥挤 的 十 字 路 口 做 出 反应 ， 甚 至 能 
对 《和 危险 边缘 》 题 目 中 的 微妙 线索 做 出 反应 。 今 天 的 目 动 机 完成 这 些 事 
情 的 方式 足以 令 沃 康 松 和 他 同时 代 的 人 敬 芋 不 已 。 











我 将 本 书写 给 对 这 些 效 置 的 工作 原理 感 兴趣 的 人 们 。 你 无 须 拥有 计 
算 机 科学 的 大 学 学 位 就 能 理解 这 本 书 ， 但 是 我 会 假设 你 亢 悉 一 些 天 于 计 
算 机 的 基本 知识 ， 例 如 计算 机 遵循 人 类 编码 的 明确 指令 ， 计 算 机 表示 图 
像 是 基于 每 个 像素 点 的 红 、 绿 、 蓝 三 色 的 数值 的 ， 等 等 。 即 使 你 熟悉 人 
工 智能 或 机 器 人 技术 ， 这 本 书 的 茶 些 部 分 对 你 而 言 也 仍然 是 新 知识 。 虽 
然 你 可 能 在 读 符 上 了 解 过 这 些 装 置 的 构件 ， 但 你 仍然 很 可 能 没有 学 过 如 
何 将 这 些 构件 组 合 在 一 起 ， 实 现 技术 突破 ， 因 为 这 些 内 容 通 种 不 是 在 同 
一 个 地 方 教授 的 。 最 后 ， 如 果 不 想 从 头 到 尾 读 完 的 话 ， 你 也 可 以 直接 翻 
到 最 感 兴趣 的 话题 阅读 。 你 无 须 往 回 翻阅 好 几 章 的 内 容 来 补习 你 需要 知 




















道 的 机 器 学 习 和 人 工 智 能 背景 。 


机 器 学 习 和 人 工 智 能 到 底 是 什么 ?人 工 智 能 是 一 个 广泛 的 研究 领 
域 ， 致 力 于 赋予 计算 机 做 出 智能 行为 的 能 力 。 但 人 工 智 能 没有 承诺 计算 
机 会 像 人 类 那样 做 这 些 事情 ， 正 如 我 们 所 看 到 的 ， 它 们 做 事 的 方式 通常 
和 人 类 大 不 相同 。 人 工 镶 能 只 是 解决 如 何 做 智能 的 事情 ， 而 且 人 工 智 能 
解决 问题 的 范围 通 利 非 党 狭 罕 ， 比 如 找到 一 条 走出 迷 写 的 路 径 。 机 器 学 
习 是 一 个 与 人 工 知 能 密切 相关 的 领域 ， 它 使 机 器 通过 从 数据 中 学 习 来 完 
成 智能 的 工作 。 正 如 我 们 在 本 书 中 将 看 到 的 那样 ， 无 论 是 人 工 智能 还 是 
机 器 学 习 ， 它 们 本 身 都 不 是 无 所 不 能 的 。 在 菏 些 情况 下 ， 我 们 需要 设计 
一 些 算 法 ， 它 们 可 以 在 不 使 用 任何 数据 的 情况 下 ， 答 拙 地 用 人 蛋 力 实现 入 
能 的 解决 方案 ; 而 在 茶 些 情况 下 ， 我 们 还 需要 设计 一 些 算法 ， 这 些 算法 
可 以 从 数 以 亿 计 的 数据 中 学 习 ， 但 在 把 它们 与 笨拙 的 塞 力 解决 方案 结合 
起 来 之 前 ， 它 们 仍然 台 无 用 处 。 我 们 需要 结合 两 种 类 型 的 算法 来 做 有 意 
思 的 事情 。 











我 已 经 提 及 了 机 器 学 习 和 人 工 智能 领域 的 一 些 有 趣 的 进步 ， 在 这 本 
书 中 ， 我 们 会 继续 探索 。 在 本 书 的 前 半 部 分 ， 我 将 概述 一 些 使 智能 机 器 
能 够 感知 环境 并 与 环境 交互 的 关键 思想 。 我 们 将 看 到 是 什么 让 自动 驾驶 
汽车 能 够 在 道路 上 行驶 ， 并 在 拥挤 的 城市 环境 中 穿行 。 我 们 将 看 到 神经 
网 络 如 何 使 这 些 汽车 和 其 他 机 器 能 够 感知 周围 的 环境 ， 看 到 神经 网 络 如 
何 识别 图 像 中 的 物体 和 人 类 语 首 中 的 文字 。 我 还 将 概述 世界 上 最 优秀 的 
电影 推荐 引擎 的 工作 原理 ， 这 个 电影 推荐 引擎 背后 的 故事 扣人心弦 ， 而 
且 这 个 系统 的 许多 核心 思想 渗透 到 了 我 们 将 在 本 书 中 看 到 的 其 他 机 器 
中 。 然 后 ， 我 会 告诉 你 们 如 何 用 奖励 让 计算 机 执行 某 些 行为 以 及 计算 机 
如 何 通过 人 工 神 经 网 络 感知 世界 。 在 本 书 的 最 后 几 章 中 ， 我 们 会 更 仔细 
地 研究 计算 机 如 何 玩 各 种 游戏 。 具 体 而 言 ， 我 们 会 研究 在 围棋 和 国际 象 
棋 比 赛 中 分 别 击败 了 世界 冠军 李 世 石 和 加 里 : 卡 斯 帕 罗 夫 (Gary 
Kasparov) 的 AlphaGo 和 “ 深 曙 ”， 还 有 在 智力 问答 节目 《人 危险 边缘 》 中 
战胜 了 两 位 冠军 一 一 肯 : 詹 宁 斯 (Ken Jennings) 和 和布 拉 德 : 鲁 特 (Brad 








Rutter) 的 IBM (国际 商用 机 嚣 公司) 的 “ 尖 森 ”。 


在 本 书 中 ， 我 们 将 追 述 这 些 突破 背后 的 故事 。 我 们 会 看 到 许多 相关 
的 研究 人 员 ， 看 到 使 这 些 进步 成 为 可 能 的 技术 和 方法 之 外 的 因素 。 例 
如 ， 一 个 反复 出 现 的 主题 是 ， 互 相 竞 争 的 研究 社区 有 助 于 集中 精力 并 促 
进 进步 。 这 就 是 让 自动 驾驶 汽车 进入 公众 想象 并 形成 现代 样式 的 原因 。 
当时 ， 数 百 个 研究 团队 参加 了 同一 场 比赛 ， 比 赛 的 目标 是 制造 可 以 在 沙 
漠 中 行驶 数 英里 二 而 无 须 人 类 驾驶 员 的 自动 驾驶 汽车 。 这 便 是 我 们 故事 
的 开端 ， 在 莫 哈 韦 沙 漠 的 一 个 凉爽 的 早晨 ， 一 些 车 队 在 为 比赛 准备 着 它 
们 的 赛车 。 





























1. ABER. ARAR Big Se bn EFF GEIL. EKA MERI. FR fi 
TEXS AT BOA RA 8 SRE e 


2. 1 英里 s1.6093 千 米 。 编者 注 


















































2 目 动 驾驶 汽车 : 挑战 不 可 能 


大 多 数值 得 做 的 事情 并 非 轻 而 易 举 ， 而 且 不 会 速 战 速决 。 你 享受 你 
得 到 的 东西 ， 享 受 事情 的 结果 ， 这 就 是 事情 原本 该 有 的 样子 。 正 确 的 做 
法 是 选择 你 喜欢 的 东西 ， 用 你 所 拥有 的 一 切 去 追求 它 ， 这 就 是 生活 的 意 
义 所 在 。 


“ 老 红 ”威廉 . 惠 特 克 (William “Red” Whittaker) © 


红色 车 队 领袖 
1. Whittaker,quoted in Radha Chitale,“Red Team Falls to Its Own Offspring,”The 
Tartan[CMU Student Newspaper],October10,2005,accessed 


June15,2017,https://thetartan.org/2005/10/10/scitech/redteam. 





沙漠 中 的 百 万 美元 苋 赛 





在 2004 年 的 一 个 深 爽 的 星期 四 早上 ， 第 一 次 机 各 人 汽车 比赛 在 莫 哈 
韦 沙 漠 拉 开 了 战 幕 。 随 着 太阳 升 起， 一 只 沙漠 乌 包 从 洞 六 中 探 出 头 来 ， 
希望 能 在 迅速 变 暖 的 公路 上 享受 一 天 的 阳光 。 今 天 它 发 现 自己 被 困 在 了 
洞穴 附近 ， 无 论 往 哪个 方向 者 寸步难行 。 大 约 20 名 生物 学 家 在 这 个 洞 和 六 
和 类 似 的 洞穴 周围 设置 了 路 障 ， 以 保护 濒临 灭绝 的 动物 免 受 即将 驶 过 附 
近 公路 的 机 器 人 汽车 的 伤害 。 三 他 们 恰当 地 预计 了 这 些 汽车 无 法 保持 在 
公路 上 行驶 ， 更 不 用 次 避 开 它们 中 间 的 乌 凶 了。 

















人 们 对 赛车 是 人 否 能 完成 比赛 的 预期 大 相 径 寿 。 赛 事 经 理 坚 不 合 糊 地 
声称 ， 胜 利 者 会 在 10 小 时 内 跑 完 142 英 里 的 赛程 。 三 但 有 人 怀疑 是 否 会 
有 任何 一 辆 赛车 能 完成 比赛 ， 机 器 人 社区 的 很 多 人 都 有 此 怀疑 。 三 





百 万 美元 奖金 发 尺 可 危 。 元 里斯: 厄 姆 杰 (Chris Urmson) 是 角逐 这 
笔 奖 金 的 人 之 一 ， 他 是 一 个 开发 自动 驾驶 悍马 汽车 的 研究 团队 的 设计 带 
头 人 。 














殉 里 斯 号 材 顾 长 ， 顶 着 一 头 次 乱 的 金发 。 在 传奇 机 器 人 专家 "“ 老 
红 ” 威 说 : 囊 特 元 的 指导 下 ， 克 里 斯 正在 卡 内 基 - 梅 隆 大 学 攻读 博士 学 
位 。 他 非常 专注 于 上 自己 的 研究 ， 在 沙 演 中 人 花 了 近 两 个 月 的 时 间 对 车 队 的 
悍马 进行 测试 ， 一 度 连续 工作 近 40 个 小 时 。 二 在 一 次 长 时 间 的 测试 中 ， 
他 一 直 守 候 到 午夜 时 分 ， 里 缩 在 厚 厚 的 毯子 下 ， 看 着 悍马 兜 圈子 。 三 透 
过 泣 筋 ， 车 头 灯光 依稀 可 见 ， 只 见 悍马 突然 侦 离 了 路 线 ， 撞 上 了 铁丝 网 
围栏 。 三 在 另 一 次 实验 中 ， 人 悍马 在 急 转 弯 时 翻 了 车 ， 传 感 器 被 甩 掉 了 ， 
化 了 几 个 星期 才 修复 。 殉 里 斯 知道 ， 这 些 事故 发 生 在 比赛 前 比 发 生 在 比 
赛 中 要 好 得 多 。 




















AB E S 25 EET TE SR TEASE IRR X, Y iocos EER AE JU. "ER UE 
计 者 给 它 安装 了 陀螺 仪 ， 这 样 它 束 可 以 通过 反问 旋转 来 保持 平衡 。 它 古 
全 国 各 地 研究 人 员 和 爱好 者 提交 的 百 余 个 参赛 作品 之 一 。 三 虽然 安装 了 
陀螺 仪 的 摩托 车 很 智能 ， 但 每 个 人 都 知道 ， 如 果 有 哪 文 车 队 最 终 能 记得 
比赛 ， 那 么 冠军 很 可 能 是 来 自 卡 内 基 - 梅 隆 大 学 的 殉 里 斯 和 威廉 的 团 
队 。 卡 内 基 - 梅 隆 大 学 的 研究 人 员 在 过 去 20 年 一 直 引 领 着 这 一 领域 ， 早 
在 1991 年 ， 他 们 就 把 一 辆 原始 的 目 动 轨 驶 汽车 开 上 了 匹 效 堡 的 街道 。 没 
有 人 能 否认 该 大 学 的 研究 人 员 在 机 电 方 面 的 成 就 ， 而 且 他 们 通过 军事 的 
款 获得 的 慷慨 资助 想必 也 是 有 百 利 而 无 一 害 。 三 




















比赛 当天 ， 克 里 斯 和 他 的 团队 设计 的 闭 满 了 传 感 费 的 悍马 从 马 包 洞 
羡 旁边 疾驰 而 过 ， 紧 随 其 后 的 是 为 一 辆 赛车 。 悍 号 已 经 行驶 了 大 约 25 分 
钟 ， 它 的 车 速 并 不 快 ， 在 驶 过 的 7 瑞 里 赛程 中 ， 它 的 平均 时 速 略 局 于 15 
英里 ， 但 它 仍然 比 当 天 其 他 参赛 车 辆 要 好 得 多 。 这 辆 机 器 人 汽车 的 挡 风 
玻璃 被 大 大 的 “CAT” (卡特 役 勒 汽车 ) 徽标 盖 住 ， 它 自信 满 满 地 疝 前 奔 
驰 。 但 突然 ， 随 着 一 个 回 左 的 总 转 杰 ， 它 的 视野 一 片 漆黑 。 由 于 看 不 见 
K, AER S BIRTI. 
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如 何 打造 目 动 芝 驶 汽车 


悍马 是 如 何 自动 行驶 7 英里 的 ?你 可 能 昕 说 过 ， 自 动 驾 驶 汽车 实现 
自动 驾驶 所 使 用 的 技术 是 机 器 学 习 ， 特 别 是 深度 神经 网 络 。 但 是 克 里 斯 
和 他 的 同事 赛 后 描述 他 们 的 悍马 时 ， 根 本 没有 提 到 机 器 学 习 和 神经 网 
络 。 当 时 是 2004 年 ， 距 离 我 们 研究 出 如 何 训 练 神经 网 络 可 靠 地 “看 到 ” 物 
体 还 有 将 近 10 年 的 时 间 。 那 么 ， 这 些 早期 的 自动 驾驶 汽车 使 用 了 什么 技 
术 呢 ?在 接 下 来 的 几 章 中 ， 我 将 回答 这 个 问题 ， 并 解释 一 些 使 汽车 实现 
自动 驾驶 的 最 简单 的 算法 。 首 先 ， 我 会 解释 当 人 们 提供 给 一 辆 汽车 要 访 
问 的 一 系列 地 点 时 ， 它 如 何在 偏远 的 交通 不 便 的 沙漠 公路 上 行驶 数 英 
里 。 在 接 下 来 的 几 章 里 ， 我 会 详细 介绍 让 汽车 能 够 “看 到 ”周围 的 世界 以 
及 在 城市 环境 中 按 加 利 福 尼 亚 州 的 交通 法 规 合理 行驶 的 算法 。 但 在 深入 
探讨 这 些 细节 ， 即 自动 驾驶 汽车 软件 的 各 部 分 之 前 ， 让 我 们 先 快速 了 解 
一 下 计算 机 控制 汽车 硬件 的 方式 。 








沃 康 松 创造 长 笛 演 到 者 的 时 候 ， 通 过 在 圆 位 上 的 特定 位 置 精 心 放置 
螺 柱 来 为 长 笛 演 卖 者 编程 ， 使 它 演 壮 特定 的 乐曲 。 这 些 螺 柱 会 通过 按压 
不 同 的 杠杆 控制 长 笛 演 奏 者 的 嘴唇 、 气 流 、 手 指 。 如 果 沃 康 松 想 要 创作 
一 首 新 乐曲 ， 他 只 需要 制作 一 个 新 的 圆 简 ， 把 螺 柱 放置 在 圆 简 上 的 不 同 
位 置 。 如 果 他 想 改 变 塑像 的 嘴唇 或 手指 移动 的 方式 ， 同 时 保留 他 的 12 首 
乐曲 ， 那 么 他 只 需要 调整 物理 装置 的 杠杆 、 链 条 和 关节 。 他 把 自动 机 的 
开发 分 为 两 部 分 一 一 圆 和 位 和 系统 的 其 他 部 分 ， 这 使 得 改进 自动 机 和 解释 
其 原理 变 得 更 加 容易 。 对 于 开 及 目 动 要 驶 汽车 ， 我 们 也 可 以 如 法 炮制 。 

















现在 我 们 把 注意 力 集中 在 汽车 的 速度 上 。 简 而 言 之， 汽车 需要 把 计 
算 机 给 它 的 数字 《比如 “25”) 转换 成 具体 的 东西 ， 即 汽车 的 行驶 速度 。 
让 这 比 听 上 去 更 难 的 是 ， 物 理发 动机 不 知道 "25 是 什么 意思 。 例 如 ， 即 
使 你 知道 给 电动 发 动机 施加 250 伏 的 电压 会 让 汽车 以 每 小 时 25 英 里 的 速 


度 行 驶 ， 你 也 无 法 通过 简单 地 调 高 或 调 低 电压 来 获得 想 要 的 速度 。 如 果 
想 让 汽车 以 每 小 时 1 英里 的 速度 行驶 ， 你 不 能 指望 给 发 动机 施加 10 伏 的 
电压 它 就 能 做 到 。 在 10 伏 电压 下 ， 发 动机 根本 不 会 转动 。 


沃 康 松 那个 时 代 的 人 通过 使 用 一 种 叫 离心 调 速 侣 的 装置 解决 了 这 个 
问题 ， 这 种 装置 创建 了 一 个 反馈 回路 来 控制 发 动机 的 速度 。 离 心 调 速 器 
是 一 种 带 有 两 个 金属 飞 球 的 “旋转 ”装置 ， 如 图 2.1 所 示 ， 你 可 能 会 把 它 同 
兹 汽机 和 启蒙 时 期 的 机 械 车 间 联 系 起 来 。 当 发 动机 运转 得 更 快 时 ， 离 心 
调 速 器 就 旋转 得 更 快 ， 金 属 〖 球 被 离心 力 问 外 拉 。 通 过 一 系列 杠杆 ， 一 
个 阀门 会 关 财 进入 发 动机 的 燃料 通路 ， 使 发 动机 减速 。 如 果 发 动机 运转 
太 慢 ， 装 置 就 会 增加 发 动机 的 燃料 ， 使 其 加 速 。 通 过 调节 注入 及 动机 的 
燃料 ， 离 心 调 速 器 可 以 让 发 动机 的 转速 保持 稳定 。 








当 发 动机 快速 旋转 时 ， 
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深 灰 色 部 分 全 都 随 
发 动机 一 起 旋转 


当 发 动机 转速 过 快 时 ， 
控制 燃料 的 阀门 关闭 


当 旋 转轴 快速 旋转 时 ， 
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图 2.1 离心 调 速 器 ， 电 子 控制 系统 的 前 身 。 当 发 动机 运转 得 更 快 时 ， 带 有 金属 飞 球 
的 旋转 轴 旋 转 得 也 更 快 ， 飞 球 被 离心 力 向 外 拉 。 接 下 来 的 一 系列 杠杆 让 发 动机 的 阀 
门 关闭 。 如 果 发 动机 运转 太 慢 ， 阀 门 就 会 让 更 多 的 燃料 通过 


这 个 离心 调 速 器 的 缺点 是 ， 它 只 知道 如 何 让 发 动机 保持 单一 速度 运 
转 。 现 代目 动 萄 驶 汽车 使 用 类 似 的 反馈 回路 ， 只 是 它们 可 以 按照 计算 机 





程序 控制 的 任意 目标 速度 运转 。 在 图 2.2 中 ， 你 可 以 看 到 这 样 的 反馈 
路 。 你 的 目标 速度 例如 每 小 时 25 英 里 是 这 个 反馈 回路 的 输入 ， 回 路 
使 用 电子 速度 计 而 不 是 旋转 装置 来 测量 车 轮 速度 与 目标 速度 的 差异 。 














我 们 和 希望 从 速度 控制 算法 中 得 到 的 直 沉 行为 是 : 当 汽 车 开 得 太 慢 
时 ， 它 会 提高 发 动机 的 功率 ; 当 汽 车 开 得 太 快 时 ， 它 会 降低 发 动机 的 功 
率 。 一 种 常用 的 调节 发 动机 功率 的 方法 叫 作 比例 控制 ， 之 所 以 叫 比 例 控 
制 ， 是 因为 我 们 对 功率 的 调节 等 于 目标 速度 和 当前 速度 的 差 值 乘 以 一 个 
固定 的 系数 。 比 例 控制 并 不 完美 ， 如 果 汽 车 爬 坡 行驶 或 逆风 行驶 ， 它 的 
行驶 速度 往往 比 我 们 期 望 的 速度 慢 。 因 此 ， 我 们 通常 会 对 控制 算法 做 一 
些 其 他 调整 ， 例 如 ， 如 果 车 速 一 直 太 慢 ， 发 动机 的 功率 就 会 稍微 提升 


i, 











最 常见 的 控制 算法 由 三 条 简单 规则 组 成 ， 它 可 以 使 汽车 可 靠 地 达到 
目标 速度 。 我 们 在 接 下 来 的 几 音 中 介绍 的 许多 目 动 驾驶 汽车 都 使 用 了 这 
种 三 规则 控制 器 ， 专 家 称 之 为 PID 〈 比 例 - 积 分 -微分 ) 控制 器 。 三 





既然 我 们 已 经 对 硬件 的 控制 方法 有 了 大 人 致 的 了 解 ， 束 无 须 再 过 多 思 
考 这 些 复杂 的 细节 。 创 建 硬件 固然 重要 ， 但 我 们 可 以 假设 它 是 一 项 单独 
的 挑战 ， 或 许 是 男 一 本 书 的 主题 。 为 了 从 我 们 的 视角 来 控制 速度 和 转 
问 ， 我 们 需要 编写 一 个 软件 来 告诉 汽车 应 该 以 什么 速度 行驶 ， 车 轮 应 该 
扭转 多 大 角度 。 把 开车 从 硬件 问题 转变 为 软件 问题 ， 现 在 我 们 便 可 以 只 
关注 软 件 问题 了 。 








实际 速度 
| )— 期 望 速度 





图 2. 2 PID 控 制 器 的 反馈 回路 ， 即 上 文 描述 的 三 规则 控制 器 。 该 控制 器 使 用 速度 计 的 
反馈 来 调节 发 动机 的 输入 ， 例 如 功率 


1. 有 时 控制 器 会 随 着 时 间 的 推移 累积 误差 ， 并 将 累积 的 误差 添加 到 发 送 给 发 动机 的 信 
号 中 ， 如 果 误 差 始 终 过 高 或 过 低 ， 这 就 会 起 作用 〈 这 被 称 为 积分 控制 ) 。 有 时 控制 融会 
跟踪 误差 的 变化 速度 ， 并 主动 调整 发 送 给 发 动机 的 信号 ， 预 测 未 来 的 变化 (这 被 称 为 微 
分 控制 ) 。 这 种 三 规则 控制 器 通常 被 称 为 PID 控 制 器 ， 或 比例 -积分 -微分 控制 器 。 从 技术 
上 讲 ， 悍 马 只 使 用 它 的 PD《〈 比 例 -微分 ) 部 分 控制 油门 ， 而 且 形式 略 有 不 同 。 



























































规划 路 径 





当 悍 马 在 比赛 中 行驶 时 ， 它 并 不 是 朝 某 个 随机 方向 行驶 25 分 钟 ， 而 
古 沿 痢 一 条 通 往 特 定 目的 地 的 道路 行驶 。 汽 车 可 以 绷 目的 地 行驶 ， 是 因 
为 车 里 有 一 个 软件 告诉 它 该 去 哪里 。 这 个 规划 组 件 是 自动 驾驶 汽车 最 重 
要 的 部 分 ， 它 决定 了 系统 其 余部 分 的 优先 级 。 汽 车 所 做 的 其 他 一 切 事 
情 ， 比 如 利用 转 同系 统 保 持 在 道路 上 行驶 、 不 撞 上 宕 石 等 ， 部 是 为 了 进 
一 步 实现 沿 看 那 条 路 径 行 驶 的 目标 。 








在 比赛 开始 前 仅 两 个 小 时 的 时 候 ， 机 器 人 汽车 比赛 的 组 织 者 才 癌 参 
赛 者 提供 了 一 幅 电子 地 图 ， 因 为 他 们 不 希望 参赛 者 提前 偷 看 这 条 路 线 。 
这 张 带 有 GPS〔 全 球 定位 系统 ) 坐标 的 地 图 描绘 了 赛车 从 比赛 起 点 到 终 
点 的 路 线 。 因 此 ， 克 里 斯 和 他 的 团队 为 汽车 配备 了 GPS 传感器 来 检测 位 
置 。 从 理论 上 讲 ， 汽 车 只 需要 从 地 图 上 的 一 个 地 点 导航 到 男 一 个 地 点 ， 
用 GPS 传 感 器 调整 方向 ， 使 日 身 保持 沿路 线 行进 即 可 。 





克 里 斯 的 团队 自称 红色 和 车队。 他 们 知道 GPS 是 导航 中 最 重要 的 部 
分 ， 但 他 们 也 知道 这 还 不 够 。 栅 栏 和 岩石 之 类 的 障碍 物 会 挡住 去 路 。 因 
此 ， 红 色 车 队 还 提前 绘制 了 一 幅 巨大 的 地 图 ， 称 之 为 "世界 上 最 好 的 地 
图 ” 以 此 完善 他 们 在 比赛 当天 早上 得 到 的 地 图 。" 三 在 比赛 开始 前 的 几 
周 里 ， 他 们 研究 了 54000 平 方 英里 二 沙漠 的 卫星 图 像 ， 以 确定 障碍 物 的 
位 置 。 











接 下 来 ， 在 比赛 开始 前 仅 两 个 小 时 的 时 候 ， 他 们 获得 了 路 线 的 GPS 
坐标 ，14 个 人 连忙 在 几 十 人 台 计 算 机 的 帮助 下 手工 标注 沿途 的 地 形 。 三 


当 这 些 工作 人 员 手 工 标注 地 图 时 ， 计 算 机 不 断 搜 索 从 比赛 起 点 到 终 
点 的 最 佳 路 线 ， 并 将 最 新 信息 发 送 给 工作 人 员 ， 以 便 其 确定 研究 的 优先 








顺序 。 克 里 斯 和 他 的 团队 计划 在 比赛 开始 前 把 这 条 预先 计算 好 的 路 径 上 
传 到 他 们 的 目 动 要 驶 悍马 上 。 


1. McGray, “The Great Robot Race.” 
2. 1 平方 英里 *2.59 平 方 公里 。 编者 注 
3. McGray,“The Great Robot Race.”。 虽 然 手 工 标注 地 图 非常 耗 时 ， 但 对 自动 驾驶 汽车 而 


言 ， 这 其 实 是 一 个 合理 的 解决 方案 ， 因为 对 所 有 在 道路 上 行驶 的 自动 HINTER, 
确 的 地 图 只 需要 创建 一 次 ， 不 需要 频繁 更 新 。 



























































路 径 搜索 


你 小 时 候 可 能 玩 过 一 个 游戏 ， 在 游戏 中 ， 你 假设 客厅 茶 些 地 方 的 地 
征 熔 罕 。 游 戏 的 目的 是 找到 一 条 罕 过 房间 的 路 ， 尽 可 能 地 避免 踩 到 熔 
宕 。 悍 马 从 当前 位 置 到 达 地 图 上 的 下 一 个 目标 点 也 需要 做 同样 的 事情 ， 
只 是 


面 
mre r 
4 是 它 需 要 避 开 的 是 沙漠 中 的 危险 地 区 ， 而 不 是 熔岩 。 








但 我 们 不 能 简单 地 告诉 悍马 “ 找 一 条 好 走 的 路 ”。 还 记得 吗 ， 当 沃 康 
松 创造 长 笛 活 奏 者 时 ， 他 必须 为 塑像 提供 演奏 长 篆 所 需要 的 每 一 个 小 动 
作 的 指令 。 同 样 ， 当 为 计算 机 编程 以 找到 一 条 好 走 的 路 时 ， 我 们 需要 给 
它 一 个 明确 的 步骤 序列 ， 它 必须 遵循 这 个 步骤 序列 才能 自行 找到 正确 路 
径 。 这 些 步 又 就 像 一 个 秘方 ， 我 们 必须 对 最 细微 的 细 布 进行 明确 说 明 。 











如 果 我 们 把 你 寻找 穿 过 熔岩 客厅 正确 路 径 的 过 程 具体 化 ， 它 大 概 是 
这 样 的 : 首先， 你 会 不 假 思 索 地 在 脑海 中 预 估 躁 在 房间 的 不 同 表面 或 物 
品 上 所 付出 的 成 本 ， 或 许 像 表 2.1 所 示 的 那样 。 








&2. 1 
地 形 类 型 一 步 的 “成 本 ” 
WE (熔岩 ) | 
RT 0.5 ( 妈妈 会 生气 ， 但 桌子 毕竟 不 是 熔岩 ) 
Khi " 
睡觉 的 猫 狗 10 


然后 ， 通 过 估算 踩 在 哪里 ， 你 可 以 用 尽 可 能 低 的 成 本 到 达 房 间 的 忆 





一 边 ， 以 此 规划 罕 过 房间 的 路 径 。 注 意 ， 我 们 将 寻找 最 优 路 径 的 问题 定 
义 为 最 小 化 某 个 函数 值 〈 路 径 的 成 本 ) 。 这 很 重要 ， 因 为 这 样 我 们 就 可 
以 用 计算 机 擅长 的 事情 来 描述 这 个 问题 了 。 计 算 机 不 擅长 做 复杂 环境 中 
的 开放 式 规划 ， 但 它 擅长 最 小 化 函数 值 。 你 将 在 这 本 书 中 反复 看 到 这 一 
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悍马 进行 的 是 计时 比赛 ， 因 此 红色 车 队 在 地 图 上 给 每 一 个 1 米 x1 米 
的 单元 格 分 配 了 成 本 ， 来 反映 他 们 以 六 点 量 表 . 三 为 标准 预计 悍马 安全 行 
驶 1 米 所 需要 花费 的 时 间 成 本 。 走 复杂 地 形 的 成 本 比 走 简单 地 形 的 成 本 
更 高 ， 因 为 悍马 在 上 面 开 得 更 慢 。 对 于 地 图 上 没有 铺设 路 面 、 缺 乏 GPS 
数据 、 地 面 不 平坦 或 陡峭 的 区 域 ， 还 有 距离 GPS 坐标 所 描述 的 赛 道中 心 
太 远 的 单元 格 ， 团 队 设置 了 额外 的 惩 加 。 得 到 了 将 成 本 分 配给 每 个 方形 
单元 格 的 地 图 之 后 ， 他 们 就 需要 预 估 穿 过 地 图 的 路 径 。 








有 一 种 很 流行 的 路 径 搜 索 算法 ， 被 称 为 迪 杰 斯 特 拉 算 法 (Dijkstra’s 
algorithm) ， 计 算 机 从 起 点 向 外 扩张 搜索 边界 ， 以 此 搜索 路 径 。 二 使 用 
该 算法 的 程序 会 执行 一 个 循环 ， 每 次 循环 时 边界 都 回 外 扩张 一 小 部 分 ， 
直到 计算 机 最 终 到 达 目 的 地 。 随 着 边界 不 断 扩 张 ， 程 序 把 任意 一 点 围 进 
边界 内 所 要 付出 的 成 本 会 慢 慢 增加 。 所 以 无 论 何 时 ， 当 它 扩张 边界 想 去 
围 刀 一 个 点 的 时 候 ， 这 个 新 点 束 是 它 要 付出 成 本 的 最 大 值 所 能 到 达 的 
扩 。 像 这 样 扩 张 边界 的 好 处 是 ， 计 算 机 可 以 沿 着 最 有 前 途 的 路 线 搜索 ， 
比如 先 搜 索 成 本 很 低 的 平坦 道路 ， 然 后 才 会 不 得 已 费力 地 搜索 更 难 走 的 
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当 边 界 到 达 目 标点 ， 即 自动 驾驶 汽车 比赛 中 的 目的 地 的 时 候 ， 计 算 
机 就 会 知道 起 点 和 终点 之 间 存 在 一 条 路 径 ， 也 知道 走 过 这 条 路 径 的 成 
本 。 只 要 计算 机 记录 下 在 地 图 上 扩张 边界 的 过 程 ， 就 可 以 快速 回 湖 ， 找 
到 通 往 终 点 的 最 短路 径 。 在 图 2.3 中 ， 你 可 以 看 到 最 短路 径 的 样子 以 及 
搜索 边界 的 过 程 。 





计算 机 科学 家 和 机 器 人 专家 多 年 来 一 直 在 研究 这 种 算法 ， 他 们 知道 
如 何在 几 分 之 一 秒 内 找到 大 型 地 图 中 成 本 最 低 的 路 径 。 当 路 径 无 须 是 最 
佳 路 径 ， 仅 仅 是 足够 好 的 路 径 即 可 时 ， 他 们 甚至 可 以 用 更 短 的 时 间 佑 算 
出 来 。 红 色 车 队 的 计算 机 用 这 种 算法 规划 出 路 线 后 ， 悍 马 便 准备 开始 比 
赛 了 。 











Loo 六 点 量 表 即 把 地 形 的 情况 分 为 1~6 六 个 等 级 的 测验 量 表 。 一 一 译 者 注 


2. 许多 自动 驾驶 汽车 中 使 用 的 算法 被 称 为 A*〈 即 A-Star) 搜索 ， 它 使 用 近似 来 缩短 搜索 
一 条 好 走 的 路 径 所 需 的 时 间 。 












































为 了 在 地 图 上 找到 悍马 的 位 置 ， 克 里 斯 的 团队 在 悍 瑟 上 安装 了 GPS 
传 感 占 。GPS 传 感 器 使 用 来 自 美国 国 防 部 送 入 地 球 轨道 的 数 十 颗 经 过 精 
心 校准 的 卫星 的 信号 。 在 任意 时 刻 ，GPS 传 感 占 都 可 以 连接 到 其 中 几 颗 
卫星 ， 但 并 不 总 是 相同 的 几 颗 。GPS 传 感 器 利用 4 颗 可 连接 的 卫星 ， 根 
据 三 角 测量 法 计算 出 当前 时 间 和 它 所 处 的 位 置 ， 可 以 精确 到 几米 。 














然而 ， 单 任 GPS 并 不 能 满足 自动 雪 驶 汽车 的 需求 。 首 先 ，GPS 测 量 
并 不 总 是 准确 的 。 优 秀 的 GPS 系统 可 以 精确 到 厘米 ， 但 在 最 坏 的 情况 
下 ， 有 些 GPS 系 统 可 能 会 有 数 百 米 的 误差 。GPS 测 量 也 存在 硬件 上 的 缺 
陷 ， 例 如 通过 隧道 时 硬件 停顿 ， 甚 至 卫星 信号 通过 地 球 电 离 层 时 受到 干 
扰 。GPS 也 无 法 为 机 器 人 汽车 指明 方向 。 例 如 ， 如 果 悍 马 的 车 轮 在 布 满 
沙土 的 道路 上 打滑 ， 人 悍马 可 能 会 失去 方向 。 因 此 ， 对 人 悍马 而 言 ， 在 没有 
GPS 的 情况 下 导航 是 至 关 重 要 的 。 

















(a) 示例 地 图 。 颜 色 越 深 ， 表 示 行 驶 成 本 越 高 。 





(b) 迪 杰 斯 特 拉 算 法 在 不 同 迭 代 次 数 下 搜索 边界 的 过 程 。 





(c) 穿 过 这 幅 地 图 的 最 佳 路 径 。 


图 2. 3 起 点 至 终点 的 路 径 选择 。 (a) 拥有 4 种 不 同 地 形 的 地 图 。 网 格 中 的 每 个 单元 
格 代 表 1 平 方 米 ，4 种 颜色 代表 4 种 地 形 。 深 色 代 表 成 本 更 高 且 不 容易 通过 的 地 形 。 起 
点 和 终点 分 别 标 记 在 左 侧 和 顶部 。 从 浅 灰 色 到 深 灰 色 ， 通 过 每 个 单元 格 的 时 间 分 别 
ZIF, BAY. DAV FO1BAY. (b) 一 些 搜索 算法 从 起 点 开始 扩张 搜索 边界 。 每 条 边界 
都 用 黑色 轮 廊 线 标 出 ， 表 示 汽 车 在 175 秒 、350 秒 、525 秒 和 700 秒 内 能 行驶 多 远 。 
(c) 算法 搜索 完成 后 ， 计 算 机 就 会 描绘 出 通过 成 本 网 格 的 最 佳 路 径 。 在 这 种 情况 
下 ， 路 径 倾 向 于 保持 在 浅 色 地 形 上 ， 因 为 在 浅 色 地 形 上 汽车 可 以 更 快 地 行驶 


因此 ， 红 色 车 队 在 悍马 上 安装 了 加 速度 计 ， 以 测量 它 的 三 维 加 速 
度 ， 悍 马 通 过 积 毗 这 些 加 速度 来 估计 汽车 的 速度 和 位 置 。 他 们 还 安装 了 
测量 旋转 角度 的 陀螺 仪 ， 这 样 束 可 以 跟踪 它 的 方 各 了 。 


悍马 利用 1960 年 发 现 的 一 种 数学 模型 一 一 卡尔 曼 滤 波 器 ， 将 这 些 加 
速度 计 和 GPS 传感器 的 测量 结果 结合 起 来 。 卡 尔 受 滤波 器 可 以 实时 跟踪 
运动 的 物体 ， 例 如 跟踪 洲 艇 在 海洋 中 的 位 置 或 机 需 人 悍马 在 赛 道上 的 位 
置 ， 其 方法 是 提取 物体 的 一 组 测量 数据 。 卡 尔 曼 滤波 器 背后 的 核心 思想 
是 ， 我 们 永远 无 法 真正 知道 物体 的 真实 位 置 和 速度 ， 只 能 担 摄 其 不 完美 
的 快照 ， 这 些 快照 就 像 声 呐 上 的 光 点 一 样 。 有 些 光 点 可 能 是 错误 的 ， 我 
们 不 想 让 它 影响 估算 ， 例 如 ， 交 点 可 能 是 一 头 钙 或 一 片 海 兴 的 反射 ， 但 
卡尔 曼 滤波 器 可 以 消除 这 些 异 常 值 。 事 实 上 ， 卡 尔 曼 滤波 器 并 不 期 望 它 
的 所 有 测量 值 都 是 正确 的 ， 它 只 是 希望 平均 值 正确 。 如 果 有 足够 多 的 观 
测 数据 ， 它 就 可 以 非常 好 地 近似 佑 算出 物体 的 真实 位 置 和 速度 。 卡 尔 曼 
滤波 器 提取 加 速度 计 、 陀 螺 仪 和 GPS 的 测量 结果 ， 再 结合 车 轮 的 测量 结 
果 ， 可 以 让 自动 驾驶 汽车 估算 出 自己 的 位 置 ， 即 使 在 GPS 中 断 两 分 钟 的 
情况 下 ， 其 估算 结果 也 只 有 厘米 级 别 的 误差 。 三 














虽然 有 这 些 精 确 的 测量 结果 ， 但 悍马 仍然 可 能 撞 到 围栏 、 岩 石 以 及 
沿途 其 他 在 红色 车 队 的 地 图 上 看 不 到 的 东西 ， 所 以 车 队 还 给 悍马 添 了 一 
只 巨大 的 “眼睛 ”。 他 们 计划 用 这 只 巨 眼 扫描 悍马 前 进 路 径 的 路 面 ， 找 出 
未 被 编 入 预先 规划 路 径 的 障碍 物 。 如 有 果 在 规划 路 径 上 有 障碍 物 或 路 面 不 
平坦 ， 那 么 他 们 编写 的 程序 就 会 让 悍马 同 左 或 网 右 转 同 ， 以 避免 撞 上 障 
但 物 或 跌倒 。 二 











悍马 的 “眼睛 ”由 激光 和 光 传 感 嚣 组成， 被 称 为 激光 雷达 。 激 光 雷 达 
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像 地 球 仪 一 样 。) 


但 是 ， 悍 马 的 巨 眼 同样 非常 简陋 。 悍 马 的 程序 并 没有 根据 它 的 “ 眼 
青 ” 所 看 到 的 东西 实质 性 地 调整 路 线 。 它 只 是 按照 预先 规划 好 的 路 线 
走 ， 按 照 简 单 的 规则 左右 转向 以 避 开 难 走 的 路 面 。 


这 只 简陋 的 “眼睛 ”最 终 也 给 悍马 巷 来 了 麻烦 ， 比 赛 中 ,和 悍马 冲 上 路 
i, MES Rev. 








1. Sebastian Thrun et al.,“Stanley:The Robot That Won the DARPA Grand 
Challenge,” Journal of Field Robotics23,no.9(2006):661—692. 


2. Urmson et al.,“High Speed Navigation of Unrehearsed Terrain.” 


3. 悍马 还 有 几 个 低 功 率 激 光 扫 描 仪 被 安装 在 它 的 侧面 和 前 部 ， 用 于 物体 探测 。 


























无 人 和 芋 挑 战 赛 的 获胜 者 


悍马 在 沙漠 中 刚刚 驶 过 7 英里 里 程 标 后 ， 一 头 撞 上 了 一 块 岩 石 。 那 
BA -TRAN RS, HRSRSASS, AMAR TKA. € 
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分 钟 又 一 分 钟 地 流逝 ， 悍 马 还 在 沙土 中 旋转 着 车 轮 。 几 名 负责 跟踪 悍马 
进程 的 赛事 官员 注视 独 它 在 晨光 中 挣扎 。 


悍马 的 车 轮 旋转 了 将 近 7 分 钟 ， 最 终 着 火 了 了。 附近 的 赛事 官 并 刻 按 
下 遥控 的 电子 灭火 开头， 停止 了 机 器 人 ， 然 后 跳出 来 扑灭 了 火焰 。 人 悍马 
的 车 轮转 得 太 快 了 ， 当 按 下 电子 灭火 开关 时 ， 它 的 两 个 半 轴 全 都 断 笋 
了 。 三 死 里斯 的 队伍 正式 退出 了 比赛 。 











DARPA 《美国 国防 部 高 级 研究 计划 局 ) 组织 了 这 次 机 器 人 汽车 比 
赛 ， 人 们 称 之 为 "DARPA 无 人 车 挑战 赛 ”(DARPA Grand Challenge) 。 
在 106 辆 报名 参赛 的 车 辆 中 ， 有 15 辆 在 比赛 当天 参加 了 比赛 ， 其 中 包括 
克 里 斯 和 他 的 团队 设计 的 机 器 人 悍马 。 

















mA, READS AERA inet ARIK TE 
来 ， 这 些 赛 车 看 起 来 简直 就 像 一 群 可 怜 虫 : 只 见 一 辆 参赛 的 大 卡车 慢 慢 
地 从 治 木 从 中 退出 来 ;为 一 辆 车 因为 害怕 影子 而 驶 离 了 道路 ;二 那 位 目 
BE BUTE A, TEAR AUS RAKE R, sid SIC ESCA IR 
到 自动 驾驶 模式 ， 它 在 起 跑 线 就 一 头 栽 倒 了 。 三 








悍马 行驶 了 7.4 贡 里， 最终 在 路 边 执 了 锚 。 虽 然 它 是 比赛 中 表现 最 
好 的 车 辆 ， 但 它 仅 仅 走 完了 59% 的 路 程 。 








红色 车 队 研究 了 他 们 的 比赛 记录 ， 发 表 了 一 份 长 篇 报告 ， 概 述 了 这 
辆 悍马 的 优 和 缺点。 他们 在 报告 中 列举 了 25 分 钟 行驶 过 程 中 的 一 些 问 题 。 





报告 读 起 来 就 像 电 影 《 福 禄 双 霸 天 》 (The BluesBrothers ) (= 的 剧本 。 
9i 15 5E; 
9i 258; 
Oe FHM, 
9i LIF BE; 
Olea; 
图 通过 发 类 计时 转弯 半径 过 小 。 = 


在 红色 车 队 的 报告 中 ， 这 些 撞击 被 描述 为 “ 非 正 党 行为 ”， 但 保险 公 
司 可 能 会 更 恰当 地 称 之 为 事故 。 


DARPA 曾 向 参赛 者 宣布 ， 比 赛 可 以 用 普通 四 驱 皮 卡 完成 ， 三 但 红 
色 车 队 选 择 了 一 辆 悍马 ， 因 为 他 们 不 希望 硬件 成 为 瓶颈 。 这 在 某 些 情况 
下 确实 有 所 帮助 ， 例 如 ，3 号 围栏 桩 是 加 固 过 的 ， 坚 固 的 悍马 推 了 它 近 
两 分 钟 才 终 于 把 它 推倒 ， 继 续 前 进 。 克 里 斯 甚至 称 他 们 的 悍马 为 “汽车 
破 城 柏 ， 时 速 22 英 里 的 猛兽 ”。 三 但 是 一 辆 坚硬 的 悍马 并 不 足以 赢得 胜 
利 。 

















问题 是 悍马 几乎 看 不 到 它 的 去 向 。 它 的 巨 眼 太原 始 ， 视 力 太 差 。 除 
了 长 距离 导航 功能 之 外 ， 悍 马 的 大 部 分 智能 行为 都 涉及 使 用 简单 的 规则 
对 传感器 做 出 反应 。 红 色 车 队 意 识 到 了 这 些 局 限 ， 对 悍马 进行 了 编程 ， 
让 悍马 在 数据 可 能 不 可 靠 时 忽略 摄像 头 和 诅 光 扫描 仪 的 数据 ， 然 后 按照 
GPS 坐标 ， 沿 着 预定 路 线 盲 眼 行驶 。 这 就 是 在 悍马 致命 的 撞车 之 前 发 生 
的 事情 。 它 必须 改进 巳 眼 和 任何 支持 巨 眼 的 软件 。 
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Chris Urmson et al.,“Red Team Technology Overview,” Technical Report, The Robotics 
Institute, Carnegie Mellon University,2004. 









































Thrun et el., "Stanley." 


Hooper,“From DARPA Grand Challenge”;McGray,“The Great Robot Race.” 


一 场 失败 的 比赛 





对 劳 观 者 而 言 ，DARPA 无 人 车 挑战 赛 可 能 看 起 来 束 是 一 次 失败 。 
美国 有 线 电 视 新 闻 网 以 “机 堪 人 折 载 挑战 赛 " 为 题 总 结 了 这 次 比赛 。《 大 
众 科 学 》 (Popular Science) 称 之 为 "DARPA 的 沙漠 溃败 ”。 三 从 好 的 一 
面 讲 ， 正 如 一 位 观众 所 言 ， 这 是 “拖车 司机 的 好 日 子 ”。" 祁 











但 许多 参赛 者 对 结果 非常 满意 。 当 晚 ， 参 赛 者 和 组 织 者 在 位 于 终点 
的 布 法 罗 比 尔 赌 场 聚 会 ， 在 那里 ， 他 们 被 一 群 热衷 于 制造 机 器 人 汽车 的 
极 客 包 围 了 。 很 快 ， 所 有 人 都 能 详细 了 解 机 器 人 悍马 如 何在 崎 嵌 的 沙漠 
里 跑 7.4 英 里 了 ! 而 且 ， 在 连续 数 月 的 连夜 奋战 和 周末 加 班 之 后 ， 他 们 
He FAY LLANE Ts © 





DARPA 的 官员 也 很 兴奋 ， 互 相 祝 加 这 场 比赛 的 成 功 。 在 之 前 的 8 年 
中 ， 自 从 自动 驾驶 汽车 领域 的 引领 者 之 一 恩 斯 特 : 迪 克 曼 斯 (Ernst 
Dickmanns) 宣称 “这 个 领域 需要 等 到 计算 机 变 得 更 强大 才 有 希望”， 该 
领域 就 一 直 在 寒冬 中 融 伏 。 计 算 机 的 速度 提高 了 25 倍 ，DARPA 无 人 车 
挑战 赛 迅速 重 燃 了 这 个 领域 ， 让 研究 人 员 得 以 再 度 取得 进展 。 三 














DARPA 也 更 接近 于 实现 国会 的 目标 一 一 到 2015 年 使 1/3 的 军用 车 辆 
实现 自动 驾驶 〈 据 我 所 知 ， 这 个 目标 并 没有 实现 ) 。 与 参赛 者 一 样 ， 
DARPA 也 拥有 来 自 世 界 各 地 专家 的 文献 ， 内 容 涉 及 如 何 制造 可 以 在 沙 
漠 中 自动 行驶 的 汽车 。“ 对 我 们 而 言 ， 是 否 有 车 辆 跑 完 整个 赛程 并 不 重 
要 ，? 时 任 DARPA 主 任 的 安东尼 . 特 人 发 (Anthony Tether) 解释 道 , “我 们 
希望 激 起 人 们 对 这 个 领域 的 科学 兴趣 和 工程 兴趣 。” 三 








从 这 个 角度 看 ， 这 次 比赛 大 获 成 功 。 它 吸引 了 100 多 名 申请 者 ， 并 
在 短 短 几 个 月 内 就 看 到 了 450 多 家 电视 媒体 和 58 家 报纸 的 报道 。 三 《 连 


AX) (Wired) 和 《大 众 科学 》 等 28 家 顶级 杂志 用 大 量 篇 幅 报 道 了 这 一 
赛事 。 三 尽管 他 们 当时 并 不 知道 ， 但 这 至少 比重 工业 投资 自动 驾驶 汽车 
技术 提前 了 15 年 。 


DARPA 的 官员 表示 ， 为 了 继续 推进 发 展 ， 他 们 将 在 一 年 多 后 举行 
下 届 比 赛 。 他 们 将 奖金 提高 了 一 倍 ， 达 到 200 万 美元 。 加 里 :卡尔 (Gary 
Carr) 是 第 一 次 挑战 赛 前 连续 几 周 彻夜 工作 的 选手 之 一 ， 也 是 那些 迫 不 
及 待 见 证 成 功 的 选手 之 一 。 他 说 :“ 我 们 会 来 的 。 我 们 的 赛车 会 有 所 不 
同 ， 但 我 们 会 来 的 。” 三 对 下 一 次 比赛 摩拳擦掌 的 人 并 不 止 他 一 位 。 交 
里 斯 和 红色 车 队 的 其 他 队员 现在 又 有 机 会 了 。 
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3 保持 在 车 道内 行驶 : 目 动 驾驶 汽车 的 感 
知 


将 自主 导航 视 为 软件 问题 。 


斯 坦 福 车 队 设 计 理 念 ，2005 年 
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第 二 次 无 人 车 挑战 赛 在 一 年 半 之 后 重 燃 战火 ， 同 样 是 在 莫 哈 韦 沙 
沉 。 每 隔 5 分 钟 束 有 一 辆 机 右 人 汽车 从 起 跑 线 出 发 ， 这 样 车 辆 束 不 会 在 
行驶 过 程 中 互相 和 干扰。 过/ 








红色 车 队 的 策略 绸 次 聚焦 于 地 图 和 导航 。 这 次 ， 在 一 个 月 的 时 间 
里 ， 车 队 派 三 名 车 手 探 察 了 2000 瑞 里 的 沙漠 路 程 ， 寻 找 比 赛 可 能 选取 的 
路 线 。 和 先前 一 样 ， 队 员 在 比赛 开始 之 前 对 路 线 进行 了 两 个 小 时 的 预 处 
理 ， 以 帮助 计算 机 规划 出 一 条 路 径 ， 然 后 将 路 径 上 传 给 悍马 。 三 他 们 还 
给 悍马 编码 了 一 条 规则 ， 以 防 它 被 困 在 岩石 后 面 动弹 不 得 。 如 果 它 被 困 
住 了 ， 即 如 果 它 的 车 轮 正 在 转动 ， 但 GPS 传 感 右 显示 它 没有 移动 ， 程 序 
就 让 它 后 退 10 米 ， 清 除 它 对 障碍 物 的 判断 ， 然 后 再 试 一 次 。 三 














对 这 些 赛 车 而 言 ， 比 赛 中 最 具 挑 战 性 的 部 分 是 啤酒 瓶 关口 ， 这 是 一 
条 1.5 严 里 长 的 土路 ， 一 边 是 陡 赠 的 岩石 ， 为 一 边 古 100 严 尺 二 局 的 蕊 
E. 三 参赛 者 围 在 关口 处 传 来 的 现场 直播 视频 旁边 ， 观 察 着 他 们 的 机 器 
人 汽车 能 否 成 功 通 过 。 二 红色 车 队 的 悍 与 虽然 一 路 兢 兢 绊 绊 ， 但 基本 顺 
利通 过 。 事 实 上 ， 人 悍马 成 功 跑 完了 全 部 132 英 里 的 赛程 ， 这 几乎 是 第 一 
场 比赛 中 行进 路 程 的 20 倍 。 三 但 它 并 没有 获胜 。 比 赛 的 获胜 者 是 斯 坦 
利 ， 它 是 斯 坦 福 车 队 制 造 的 赛车 ， 这 一 年 首次 参赛 。 斯 坦 利 开 得 太 快 
了 ， 为 了 等 它 前 面 的 赛车 ， 它 不 得 不 两 次 停车 。 三 最 终 比 赛 组 织 者 停 住 
了 斯 坦 利 前 面 的 赛车 ， 让 斯 坦 利通 过 。 最 后 ， 斯 坦 利 完 强 比 红 色 车 队 的 
悍马 快 了 10 多 分 钟 。 霹 














斯 坦 福 车 队 由 斯 坦 福 大 学 人 工 智能 实验 室 负 贡 人 塞 巴 斯 带 安 . 特 龙 
(Sebastian Thrun) 领导 ， 他 是 有 史 以 来 担任 这 一 职位 的 最 年 轻 的 人 。 
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的 初级 教员 。 虽 然 他 先前 从 未 制造 过 自动 驾驶 汽车 ， 但 他 从 第 一 次 无 人 
车 挑战 赛 受到 了 启发 。 在 得 知 那 场 挑战 赛 是 一 场 “沙漠 溃败 "之 后 ， 他 问 
自己 : “我 们 能 做 得 更 好 吗 ? ”他 从 大 众 汽车 公司 得 到 了 两 辆 大 众 途锐 
汽车 的 赞助 和 大 众 电子 研究 实验 室 的 支持 ， 由 此 ， 他 得 以 将 灵感 转化 为 
fa. E 








正如 塞 巴 斯 蒂 安 在 比赛 的 个 人 笔 p UR 他 首先 通过 组 织 
研讨 班 召 集 人 力 ， 建 造 斯 坦 利 的 原型 。 三 这 不 是 普通 的 课 演 ， 
书 ， 没 有 教学 大 纲 ， 也 没有 讲座 。 二 这 门 课 的 20 名 学 生 只 阅读 了 两 篇 论 
文 ， 这 样 他 们 就 不 会 偏向 于 任何 特定 的 方法 。 三 在 短 短 8 周 内 ， 他 们 就 
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是 什么 让 斯 坦 利 在 比赛 中 大 获 成 功 ? 前 一 年 的 参赛 车 辆 对 障碍 物 检 
测 等 方面 的 依赖 太 少 。 三 斯 坦 福 车 队 认识 到 ， 过 于 强调 地 网 和 导航 而 急 
视 对 环境 的 感知 是 错误 的 。 虽 然 他 们 的 对 手 红 色 车 队 在 第 二 次 无 人 车 挑 
战 赛 前 已 经 控 硅 了 2000 英 里 的 沙漠 道路 ， 但 这 一 区 域 仅 占 实际 比赛 路 线 
的 2%6。 三 











斯 坦 福 车 队 知道 ， 即 使 大 型 悍马 也 可 能 被 宕 石 困 住 ， 而 且 DARPA 
提醒 他 们 ， 小 型 皮卡 可 以 穿越 这 条 路 线 ， 这 就 形成 了 一 种 不 同 的 设计 理 
念 ， 将 自主 导航 视 为 软件 问题 。 三 在 让 学 生 设 计 原 型 机 器 人 的 研讨 班 结 
束 后 ， 徐 巴 斯 带 安 和 一 个 小 团队 仪 由 少数 学 生 和 其 他 一 些 研究 人 员 组 
成 ) 会 弃 了 他 们 的 大 部 分 代码 ， 开 始 更 仔细 地 和 草 写 斯 坦 利 的 软件 ， 并 为 
汽车 中 包含 的 软件 设置 了 一 个 很 高 的 标准 。 三 但 他 们 并 不 只 是 依赖 软 
件 ， 更 具体 地 讲 ， 他 们 计划 使 用 机 器 学 习 来 解决 驾驶 问题 。 
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斯 坦 福 车 队 并 不 是 第 一 个 使 用 机 器 学 习 设 计 上 自动 驾驶 汽车 的 研究 小 
组 ， 人 至 少 目 20 世 纪 80 年 代 开 始 ， 人 们 就 已 经 在 自动 车 驶 汽车 的 背景 下 研 
究 机 器 学 习 了 。 三 但 是 ， 斯 坦 福 车 队 属于 第 一 批 完 全 押 注 于 机 器 学 习 的 
现代 自动 驾驶 汽车 团队 。 在 上 自动 驾驶 汽车 成 为 主流 媒体 热门 词汇 之 前 的 
近 10 年 里 ， 他 们 就 欣然 接受 了 机 器 学 习 在 自动 驾驶 汽车 领域 的 角色 ， 塞 
巴 斯 带 安 的 车 队 在 赛 后 这 样 描述 其 赛车 。 


无 论 在 比赛 前 还 是 在 比赛 中 ， 机 器 学 习 的 广泛 应 用 都 使 斯 坦 利 变 得 
强大 和 精确 。 我 们 相信 ， 这 些 技术 加 上 广泛 的 测试 ， 对 斯 坦 利 在 这 场 比 
赛 中 的 成 功 起 到 了 很 大 的 作用 。 三 


当 塞 巴 斯 带 安 和 他 的 团队 第 一 次 铸 手 打造 斯 坦 利 时 ， 他 们 面临 着 一 
项 艰巨 的 任务 。 他 们 需要 为 其 自动 机 设计 一 种 方式 来 感知 世界 并 做 出 反 
应 。 斯 坦 利 在 寻找 新 路 径 时 不 能 每 次 都 等 几 秒 ， 随 着 环 境 模型 的 改变 ， 
它 需 要 做 出 无 颖 衔接 的 决策 。 竖 巴 斯 蒂 安 的 团队 考虑 这 个 任务 ， 就 像 一 
个 建筑 师 团队 考虑 设计 新 建筑 一 样 。 他 们 需要 为 斯 坦 利 找 到 一 个 架构 。 


1. Dean A.Pomerleau,Alvinn:An Autonomous Land Vehicle in aNeural Network.Technical 
Report, DTIC Document, 1989. 


2. Thrun et al.,“Stanley.” 


斯 坦 利 的 架构 





塞 巴 斯 带 安 的 团队 整合 的 架构 由 三 个 独立 的 部 分 组 成 ， 如 图 3.1 所 
示 。 以 构 最 左 侧 的 部 分 是 硬件 层 ， 其 中 包括 传感器 和 执行 器 ， 前 者 负责 
收集 数据 ， 后 者 控制 转向 、 和 刹车 和 发 动机 转速 。 硬 件 层 不 会 做 任何 智能 
的 事情 ， 它 仅仅 是 从 传感器 《摄像 机 、 激 光 扫 描 仪 和 GPS 系统 等 ) 获取 
数据 ， 并 使 用 来 目 规划 层 的 命令 〈 如 发 动机 转速 和 车 轮 角 度 ) 控制 汽车 
的 硬件。 除了 可 能 被 姐 入 人 硬件 的 卡尔 曼 滤波 占 外 ， 便 件 层 几乎 没有 通 季 
属于 人 工 智 能 或 机 器 学 习 领 域 的 东西 。 三 











在 男 一 端 ， 即 最 右边 ， 是 思考 层 ， 或 称 规划 层 : 它 执行 汽车 的 局 层 
次 规划 。 斯 坦 利 没有 太 多 高 层次 的 思考 ， 我 们 会 在 下 一 章 中 看 到 更 多 
自动 轨 驶 汽车 的 高 层次 思考 ， 但 在 斯 坦 利 中 这 几乎 不 人 存在 。) 鉴于 道路 
上 有 障碍 ， 这 一 层 解 决 了 汽车 应 该 如 何 转 问 以 避 开 障碍 的 问题 。 这 一 层 
负责 决定 汽车 的 实际 驾驶 方式 。 它 将 命令 发 送 到 最 左边 的 硬件 层 ， 通 名 
古 发 送 给 我 们 在 上 一 章 看 到 的 三 规则 控制 项。 如 采 规 划 层 希望 发 动机 以 
特定 的 速度 〈 例 如 每 小 时 25 英 里) 为 目标 ， 那 么 它 只 需要 将 该 命令 用 送 
给 硬件 控制 器 即 可 。 








图 3.1 中 的 中 间 层 位 于 左 侧 的 人 硬件 层 和 右 侧 的 思考 层 之 间 。 它 将 传 

感 需 的 原始 读数 转换 成 可 解释 的 模型 ， 这 样 思 考 层 就 可 以 完成 它 的 工 
作 。 其 中 一 些 模型 简单 地 总 结 了 斯 坦 利 需要 遵循 的 高 级 路 线 ， 这 是 斯 坦 
利 在 比赛 开始 时 规划 的 路 线 。 其 他 模型 对 数据 进行 处 理 ， 以 此 告诉 斯 坦 
利 它 的 传感器 看 到 了 什么 。 中 间 层 中 持续 运行 着 各 种 各 样 的 机 器 学 习 模 
块 ， 其 中 包括 我 们 稍 后 会 仔细 研究 的 几 个 道路 检测 系统 ， 这 些 模块 解释 
混乱 无 序 的 传感器 读数 ， 并 把 它们 转换 成 对 世界 更 有 意义 的 解释 ， 然 后 
传递 给 规划 层 。 





硬件 层 中 间 层 ， 或 称 感知 层 ”思考 层 ， 或 称 规划 层 
加 速度 计 、 激 光 
扫描 仪 、 摄 像 机 


TAA TR: 关于 油门 和 
油门 和 转向 转向 的 决策 





图 3.1 斯 坦 利 软 硬 件 组 织 的 简要 总 结 ， 斯 坦 福 车 队 曾 凭 借 它 获得 2005 年 无 人 车 挑战 
赛 冠军 





这 些 传感器 读数 以 点 云 三 的 形式 进入 中 间 层 ， 或 称 感知 层 。 通 过 为 
右边 的 规划 层 解释 它们 ， 中 间 层 使 规划 层 更 容易 专注 本 其 更 高 层次 的 推 
理 。 虽 然 运行 在 中 间 层 的 模块 设计 巧妙 并 使 用 复杂 的 机 器 学 习 算法 ， 但 
它们 并 不 是 真正 的 智能 。 只 有 在 与 规划 层 共同 工作 时 ， 它 们 才 显 得 知 
能 。 现 在 ， 让 我 们 一 起 仔细 探讨 中 间 层 的 感知 模块 。 














1. 这 些 层 之 间 的 界线 可 能 是 模糊 的 。 例 如 ， 有 时 硬件 层 中 现成 的 传感器 会 使 用 卡尔 曼 
滤波 器 之 类 的 东西 ， 卡 尔 曼 滤波 器 是 属于 人 硬件 层 还 是 软件 层 ? 这 其 实 并 不 清楚 。 
2. 点 云 是 指 在 获取 物体 表面 每 个 采样 点 的 空间 坐标 后 得 到 的 点 的 集合 。 译 者 注 
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正如 红色 车 队 上 所 做 的 那样 ， 斯 坦 福 车 队 也 为 他 们 的 赛车 装备 了 激光 
扫描 仪 ， 用 来 “观察 ?周围 的 地 形 。 他 们 给 斯 坦 利 编写 了 程序 ， 让 和 它 想象 
目 己 周围 的 网 格 ， 有 点 像 图 3.2 中 的 网 格 (只 是 他 们 的 地 图 中 每 个 单元 
格 的 面积 要 小 得 多 ) 。 


斯 坦 利 使 用 油光 扫描 仪 的 数据 估计 网 格 中 哪些 单元 格 被 物体 占据 
《图 3.2 中 ， 被 占据 的 单元 格 用 深 灰 色 表 示 ) 。 然 后 ， 斯 坦 利 的 规划 算 
法 让 筷 在 疫 被 后 据 的 单元 格 上 行驶 ， 同 时 转 癌 以 避 开 被 占据 的 单元 格 。 


但 他 们 如 何 判 断 一 个 单元 格 是 否 被 占据 ? 窄 巴 斯 带 安 和 他 的 团队 为 
斯 坦 利 编写 的 程序 是 : 测量 每 个 单元 格 的 特征 ， 例 如 单元 格 中 不 同 扣 的 
高 度 〈 这 是 他 们 可 以 从 激光 扫描 仪 获得 的 信息 ) 以 及 距离 上 一 次 精确 测 
量 这 些 点 的 时 间 有 多 长 。 然 后 ， 他 们 使 用 这 些 测量 值 来 估计 单元 格 中 包 
含 两 个 不 同 高 度 的 点 的 概率 。 如 打 单 元 格 确实 包含 两 个 高 度 非 党 不 同 的 


点 ， 那 么 斯 坦 利 便 会 在 地 图 上 将 这 个 单元 格 标记 为 已 被 占据 。 一 
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的 变化 而 浮动 。 如 果 斯 坦 利 的 激光 扫描 仪 倾斜 了 几 分 之 一 度 ， 斯 坦 利 就 
会 认为 前 面 有 障碍 物 ， 这 束 会 导致 最 右边 那 一 层 的 规划 算法 命令 斯 坦 利 





转 问 。 斯 坦 福 车 队 本 可 以 投资 数 十 万 美元 购 入 一 个 由 顶尖 研究 科学 家 设 
计 的 昂贵 的 人 体 姿 态 估 计 系 统 ， 但 团队 已 经 拥有 了 这 样 的 科学 家 ， 上 所 以 
他 们 目 己 建立 了 一 个 模型 ， 这 个 模型 对 避免 这 类 测量 误差 很 有 用 。 他 们 
得 到 的 模型 是 正确 的 ， 至 少 本 质 上 是 正确 的 ， 但 仍然 有 许多 参数 需要 调 


XE Vt) 








《 连 线 》 杂 志 的 记者 乔 舒 亚 . 戴 维 斯 (Joshua Davis) 注意 到 ， 塞 巴 
斯 带 安 非常 清楚 这 些 局 限 。 比 赛 前 几 个 月 的 一 天 ， 窗 巴 斯 带 安 和 斯 坦 利 
在 沙漠 里 ， 他 在 路 边 泪 玫 地 踢 看 沙土 ， 因 为 斯 坦 利 偶 离 了 正确 的 路 线 ， 
差点 开 进 沟 里 。 三 塞 巴 斯 带 安 发 现 斯 坦 利 与 第 一 次 挑战 赛 中 害 人 影子 和 
灌木 从 的 赛车 有 同样 的 问题 。 他 仔细 思考 ， 试 图 找 出 哪些 算法 可 以 让 汽 


车 更 好 地 利用 传感器 的 数据 。 一 








随后 ， 他 开始 应 用 机 器 学 习 。 赛 巴 斯 带 安 的 解决 方案 是 让 一 个 人 蜀 
驶 斯 坦 利 ， 同 时 让 它 的 激光 扫描 仪 测量 汽车 周围 的 世界 《有 一 种 说 法 是 
均 巴 斯 带 安 杀 目 要 驶 斯 坦 利 收集 这 些 测量 数据 ) ， 然 后 保存 这 些 测量 数 
据 以 便 以 后 使 用 。 这 个 想法 的 关键 之 处 在 于 ， 无 论 谁 驾驶 斯 坦 利 ， 他 都 
只 会 在 安全 的 路 面 上 区 怠 ， 所 以 斯 坦 利 没有 行驶 过 的 一 些 路 面 则 可 能 
不 安全 。 突 巴 斯 带 安 的 团队 可 以 使 用 传 感 带 的 测量 数据 调整 障碍 检测 模 
型 中 的 许多 参数 ， 这 样 做 实际 上 是 用 数据 “训练 "算法 。 


徐 巴 斯 带 安 的 团队 用 来 预测 哪些 路 面 可 以 安全 行驶 的 方法 ， 被 称 为 
监督 分 类 。 三 我 们 将 在 接 下 来 的 几 章 仔 细 探 讨 这 个 方法 ， 但 是 现在 你 需 
要 知道 的 是 ， 斯 坦 福 车 队 使 用 的 方法 可 以 被 称 为 一 个 分 类 器 ， 这 种 分 类 
需 让 计算 机 可 以 自动 预 训 一 个 项 目 属 于 两 个 类 别 中 的 哪 一 个 。 分 类 器 的 
主旨 是 使 用 一 个 可 以 生成 预测 的 简单 数学 函数 来 组 合 你 的 测量 结果 。 这 
个 数学 函数 可 能 有 许多 可 调整 的 “旋钮 "， 这 便 是 我 们 引入 机 右 学 习 的 地 
方 ， 因 为 这 些 “ 旋 钮 "可 以 通过 数据 进行 调整 ， 所 以 预测 可 以 变 得 非常 精 
确 。 
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几 个 数量 级 。 在 他 们 使 用 这 一 方法 之 前 ， 斯 坦 利 有 12.6% 的 概率 会 把 安 
全 的 路 面 误 认 为 不 安全 的 路 面 ， 这 种 错误 会 让 它 离 开道 路 。 在 将 分 类 融 
与 数据 拟 合 后 ， 斯 坦 福 车 队 把 这 个 概率 降低 到 了 原来 的 116000。 三 这 是 
他 们 改进 红色 车 队 使 用 的 巨 眼 的 第 一 个 关键 步骤 。 





1. Thrun et al., "Stanley." 
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6. Thrun et al., "Stanley." 





寻找 直路 的 边 绿 





Nis cosa dose lioc EN. A Core dd 这 个 分 类 

告诉 斯 坦 利 ， 在 它 的 视野 范围 内 哪些 路 面 是 可 以 行驶 的 ， 但 是 分 类 
ee ， 也 没有 强迫 斯 坦 利 保持 在 道路 上 
行驶 。 使 用 上 面 的 分 类 器 ， 只 要 越野 路 也 算是 可 以 行驶 的 ， 斯 坦 利 就 人 
心甘情愿 地 离开 正常 道路 。 


不 过 ， 这 或 许 还 说 得 过 去 。 毕 部， 从 搁 术 上 讲 ， 比 赛 并 不 要 求 斯 坦 
利 保持 在 道路 上 行驶 ， 只 要 分 类 右 说 地 形 可 以 行驶 ， 那 么 从 原则 上 讲 ， 
驶 过 这 里 就 是 安全 的 ， 对 吧 ? 但 斯 坦 福 车 队 认识 到 ， 离 开道 路 可 能 会 有 
和 危险。 正如 他 们 在 赛 后 总 结 中 所 写 的 那样 : “障碍 物 〈 例 如 岩石 、 洪 木 
SAVER HE) 最 常 出 现在 道路 两 边 。 只 要 治 着 道路 中 间 行 驶 ， 斯 坦 利 无 
cud dps ie nr Gece ak a ga eg NM 
一 些 条 目 正 是 红色 车 队 的 悍马 撞 上 过 的 ， 这 可 能 并 非 偶然 。 然 而 ， ies 
ES s E BARES] © rr EMT Ag Sr EA I a ot RST Y FO RAS XX 
个 算法 可 以 帮助 斯 坦 利 找 到 道路 的 边缘 。 














斯 坦 福 车 队 认 为 ， 道 路 的 边缘 通常 应 该 与 他 们 事先 规划 好 的 道路 平 
行 。 因 此 ， 他 们 为 斯 坦 利 妃 外 安装 了 激光 扫描 仪 ， 激 光 扫 描 仪 治 着 与 规 
划 路 径 平 行 的 直线 扫描 汽车 附近 的 路 面 ， 寻 找 道 路 的 边缘 ， 如 图 3.3 所 
示 。 








图 3. 3 


然后 ， 这 个 道路 边缘 探测 模块 会 试探 性 地 检测 被 激光 扫描 到 的 直线 
上 是 否 有 障碍 物 。 在 没有 检测 到 障碍 物 的 情况 下 ， 两 边 最 靠 外 的 直线 会 
被 认为 是 它 “ 观 测 ” 到 的 道路 边缘 位 置 。 所 以 当 斯 坦 利 前 进 的 时 候 ， 这 个 
模块 会 收集 许多 这 样 的 观测 结果 。 在 原始 的 形式 下 ， 这 些 结果 看 起 来 就 
像 是 汽车 两 侧 的 一 系列 散 点 。 但 是 ， 一 旦 它们 通过 男 一 个 卡尔 曼 滤 小 
器 ， 斯 坦 利 就 能 对 道路 的 边缘 进行 准确 的 估算 。 = 只 要 斯 坦 利 估算 出 了 
道路 的 边缘 ， 它 就 可 以 对 道路 的 中 央 位 置 进 行 持续 的 估算 。 然 后 ， 斯 坦 
利 的 路 径 规划 算法 《我们 稍 后 会 看 到 ) 会 做 出 判断 ， 如 果 道 路 上 没有 其 
他 障碍 ， 它 就 会 让 斯 坦 利 沿 着 道路 中 央行 驶 。 (机 器 人 比赛 时 ， 其 路 线 


止 外 部 交通 ， 所 以 没有 迎面 而 来 的 车 辆 。 


Thrun et al.,“Stanley”;Davis,“Say Hello to Stanley.” 


Thrun et al.,“Stanley”;Davis,“Say Hello to Stanley.” 


开眼 看 路 


斯 坦 利 的 视觉 系统 仍然 存在 问题 。 即 使 这 些 模块 可 以 让 斯 坦 利 保 持 
在 道路 上 行驶 ， 它 的 激光 扫描 仪 也 只 能 “看 到 ?前 方 约 30 米 的 路 况 。 对 斯 
坦 利 而 言 ， 这 还 不 足以 让 它 安 全 地 以 每 小 时 25 英 里 以 上 的 速度 行驶 ， 因 
为 沙漠 道路 常 有 和 急 转 弯 ， 就 像 第 一 次 比赛 中 让 悍马 抛锚 的 那个 急 转 弯 一 
样 。= 窄 巴 斯 带 安 和 他 的 团队 计算 出 ， 每 小 时 25 英 里 的 速度 对 他 们 而 言 
太 慢 了 ， 所 以 他 们 要 寻找 男 一 种 方法 ， 让 斯 坦 利 可 以 “看 到 ”激光 扫描 仪 
检测 范围 以 外 的 路 况 。 


他 们 的 解决 方案 是 在 斯 坦 利 的 前 部 安装 彩色 摄像 机 。 摄 像 机 可 
以 “看 到 ” 比 激光 扫描 仪 更 远 的 距离 ， 所 以 如 果 斯 坦 利 能 确定 道路 延伸 到 
了 前 面 很 远 的 距离 ， 那 么 它 就 会 认为 道路 可 以 安全 行驶 ， 这 样 它 就 可 以 
把 车 速 从 每 小 时 25 英 里 提高 到 每 小 时 45 英 里 。 二 











当 我 们 人 类 看 到 一 条 道路 的 照片 时 ， 一 眼 就 能 清楚 地 看 出 照片 的 哪 
一 部 分 是 道路 ， 哪 一 部 分 是 道路 的 边缘 ， 哪 一 部 分 是 天 空 。 对 计算 机 程 
序 而 言 ， 这 些 细节 一 开始 并 不 明显 。 同 样 ， 斯 坦 利 需要 一 步 步 地 从 摄像 
机 的 图 像 中 找到 道路 。 为 了 做 到 这 一 点 ， 斯 坦 利 采用 了 机 器 学 习 中 一 种 
BIKAR (clustering) 的 技术 ， 把 具有 相似 颜色 的 像 系 组 织 在 一 起 。 
这 样 它 才 可 以 更 好 地 判断 一 个 像素 是 属于 道路 的 一 部 分 ， 还 是 属于 道路 
边缘 的 一 部 分 。 





为 了 理解 斯 坦 利 是 如 何 做 到 这 一 点 的 ， 请 想象 你 是 一 个 刚 洗 了 一 大 
堆 袜 子 的 吸血 鬼 。 因 为 吸血 鬼 最 喜欢 的 颜色 是 红色 和 黑 灰 色 ， 上 所 以 你 的 
宾 子 是 各 种 深浅 不 一 的 红 宾 子 和 有 各 种 灰 度 的 袜子 。 从 洗衣 店 回 家 后 ， 
你 开始 整理 这 些 袜 子 ， 将 它们 摊 开 放 在 床上 ， 把 同色 系 的 钴 子 放 在 一 
起 。 一 段 时 间 后 便 会 出 现 一 堆 红 袜 子 和 一 扒 黑 灰 袜 子 ， 它 们 可 能 会 在 深 


红色 和 深 灰 色相 交 的 地 方 重合 。 








但 是 想象 一 下 ， 你 发 现 了 一 只 亮 绿 色 的 袜子 。 这 只 袜子 显然 不 属于 
两 堆 袜 子 中 的 任何 一 堆 ， 所 以 你 断定 它 肯定 是 从 洗衣 店 混 进 来 的 ， 便 扔 
BI. 


这 正 是 斯 坦 利 推理 摄像 机 图 像 像 素 的 方式 。 它 通过 查看 代表 汽车 前 
方 路 面 的 像素 来 创建 道路 像 系 的 聚 类 。 在 沙漠 中 ， 你 可 以 想象 代表 这 些 
道路 的 像素 可 能 是 灰色 和 棕色 的 混合 ， 这 会 导致 斯 坦 利 最 终 得 到 一 个 灰 
色 像 素 聚 类 和 一 个 棕色 像素 聚 类 。 三 然后 ， 斯 坦 利 会 测试 图 像 中 其 他 像 
素 是 否 与 这 两 个 聚 类 匹配 。 三 如 果 与 聚 类 匹配 ， 它 们 就 是 道路 的 一 部 
分 ， 否 则 ， 斯 坦 利 就 会 拒绝 它们 ， 认 为 它们 不 是 道路 的 一 部 分 ， 就 像 你 
扔 挥 绿 鳞 子 一 样 。 一 旦 斯 坦 利 确定 出 哪些 像素 属于 道路 ， 它 束 可 以 用 简 
单 的 几何 方法 估算 出 道路 在 前 方 延 伸 了 多 远 。 如 采 道 路 在 斯 坦 利 前 方 延 
伸 了 很 长 的 一 段 距离 ， 那 么 它 就 可 以 加 速 行驶 。 斯 坦 利 的 这 个 道路 观察 
模块 持续 运行 ， 定 时 重复 ， 不 断 调 整 对 道路 颜色 的 估算 。 











斯 坦 利 能 确定 它 选 择 了 正确 的 像素 来 建立 对 道路 颜色 的 估算 吗 ? 难 
道 斯 坦 利 不 可 能 无 意 中 选 择 了 路 边 的 像素 来 建立 聚 类 ， 而 没有 选择 道路 
上 的 像素 ? 在 确定 哪些 像素 是 道路 时 ， 算 法 当然 可 能 会 出 错 ， 就 像 任何 
算法 都 可 能 出 错 一 样 ， 但 这 个 问题 在 一 定 程度 上 被 缓解 了 。 一 是 因为 斯 
坦 利 还 有 其 他 模块 ， 比 如 检测 可 行驶 地 形 的 模块 ;二 是 因为 该 算法 只 被 
用 于 控制 速度 ， 不 控制 转 癌 。 即 使 斯 坦 利 离开 道路 一 段 时 间 ， 它 仍然 不 
会 撞车 。 一 旦 斯 坦 利 重新 上 路 ， 它 的 道路 观察 模块 就 可 以 迅速 调整 到 正 
确 的 道路 颜色 。 
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3. RGB《〈 红 、 绿 、 赣 色彩 模式 ) 是 任意 标 度 。 在 许多 情况 下 ， 研 究 人 员 在 使 用 RGB 之 
前 将 其 转换 为 一 组 不 同 的 数字 ， 例 如 亮度 、 饱 和 度 《〈 即 灰 度 ) 以 及 色相 。 





























这 个 测试 将 天 空 视 为 例外 ， 他 们 在 预 处 理 步骤 中 排除 了 这 个 例外 。 





SS 


路 径 规 划 


斯 坦 利 检 测 道路 和 障碍 物 的 模块 位 于 图 3.1 所 示 架 构 中 间 的 感知 
层 。 控 制 斯 坦 利 速 度 的 软件 位 于 架构 右边 的 规划 层 。 石 边 的 规划 层 不 雷 
要 看 传感器 的 原始 数据 ， 它 只 是 利用 感知 层 的 信息 来 做 决定 。 斯 坦 利 规 
划 层 中 的 妨 一 个 算法 是 用 来 规划 障碍 物 周围 路 径 的 软件 。 但 在 斯 坦 利 能 
够 有 意 避 开 障 但 物 之 前 ， 它 需要 有 一 条 完整 的 路 线 可 循 。 











就 像 红色 车 队 的 悍马 一 样 ， 斯 坦 利 在 比赛 开始 时 就 预先 规划 了 全 程 
路 线 。 斯 坦 利 的 路 线 不 像 红色 车 队 那 样 包 含 地 形 的 外 部 信息 。 正 如 我 们 
将 看 到 的 ， 斯 坦 福 车 队 的 感知 算法 非常 好 ， 足 以 让 斯 坦 利 在 行驶 过 程 中 
发 现 并 避 开 障碍 。 相 反 ， 斯 坦 利 的 路 线 规划 算法 的 主要 目标 只 是 提供 一 
条 接近 赛事 组 织 者 给 出 的 GPS 坐标 的 路 线 ， 并 且 使 GPS 坐标 之 间 用 直线 
连 成 的 路 线 中 的 急 转 弯 变 得 平滑 。 这 个 算法 在 比赛 开始 后 只 花 了 斯 坦 利 


20 秒 的 时 间 。 = 














一 旦 斯 坦 利 规划 好 了 这 条 平滑 的 路 线 ， 它 需要 做 的 就 是 沿 厦 这 条 路 
线 行进 ， 用 它 的 感知 算法 避 开 沿途 发 现 的 障碍 。 正 如 我 们 先前 看 到 的 ， 
斯 坦 利通 过 寻找 在 隐 但 物 周 围 哪 些 地 方 可 以 行驶 来 定位 障碍 物 ， 而 障碍 
物 是 被 标记 为 不 可 行驶 的 方形 单元 格 。 为 了 绕 过 这 些 障碍 物 ， 斯 坦 利 不 
WESTRA KIME (在 给 定 的 时 刻 无 论 它 在 哪里 ) 到 预定 路 线 上 稍 
微 远 一 点 的 目标 《比如 10 秒 后 的 位 置 ) 的 最 佳 路 径 ， 无 论 那个 目标 在 哪 
里 。 当 斯 坦 利 规划 这 条 路 径 时 ， 它 只 需要 找到 一 种 方法 ， 让 汽车 在 不 撞 
上 任何 物体 的 情况 下 从 当前 位 置 到 达 目 标 位 置 。 只 要 斯 坦 利 能 够 继续 规 
划 并 执行 这 些 路 径 ， 汽 车 就 会 成 功 地 沿 着 路 线 继续 前 进 ， 而 不 会 撞 上 任 
何 物 体 。 


还 记得 吗 ， 上 一 章 中 悍马 的 路 径 搜索 算法 使 用 了 一 个 成 本 函数 ， 这 








个 函数 表示 了 悍马 在 地 图 上 的 每 个 小 方 格 上 行驶 所 需要 的 时 间 。 斯 坦 利 
需要 类 似 的 成 本 函数 来 避 开 障碍 。 一 个 可 能 的 想法 是 ， 根 据 网 格 中 每 个 
单元 格 到 最 近 的 障碍 物 的 距离 ， 在 单元 格 设置 一 些 惩罚 ， 斯 坦 利 可 以 利 
用 成 本 函数 找到 一 条 尽 可 能 远离 沿途 障碍 物 的 路 径 。 事 实 上 ， 这 正 是 期 
坦 福 车 队 最 初 的 尝试 。 这 个 算法 可 以 让 斯 坦 利 远离 障碍 物 ， 但 它 也 使 斯 
坦 利 为 了 避 开 障碍 物 而 蝇 无 规则 地 抛 来 毛 去 。 研 究 小 组 将 这 个 算法 称 


为 “ 喝 醇 的 松鼠 *"。 一 











为 了 解决 这 个 问题 ， 他 们 对 斯 坦 利 进行 了 编程 ， 让 它 沿 着 一 条 与 赛 
前 计算 出 的 平滑 路 线 平 行 的 虚拟 走廊 行驶 。 他 们 的 目标 是 让 斯 坦 利 尽 可 
能 快 地 沿 看 这 条 走廊 行驶 ， 只 在 走廊 内 回 左 或 占 右 转 以 避 开 障碍 物 。 这 
忠 好 像 斯 坦 利 在 玩 一 球 经 典 的 街机 车 驶 游戏 ， 游 戏 中 全 部 的 控制 惑 只 有 
加 速 、 谭 车 以 及 沿 着 固定 的 路 线 回 左 或 同 右 滑动 。 在 没有 障碍 物 的 情况 
下 ， 斯 坦 利 的 程序 还 让 它 辐 道路 边缘 探测 器 探测 到 的 道路 中 央 移 动 。 为 
了 和 弄 清楚 它 应 该 癌 左 还 是 同 右 移动 以 及 需要 移动 得 多 快 ， 也 就 是 说 ， 它 
征 否 需要 加 速 或 快速 转向 ， 斯 坦 利 仍然 使 用 了 搜索 算法 ， 但 它 只 考 碟 其 
现在 和 卢 刻 之 后 的 位 置 之 间 的 平滑 路 径 。 它 的 成 本 函数 惩 如 了 一 些 事 
情 ， 包 括 远离 预先 规划 的 路 径 行驶 、 轰 车 越过 障碍 物 以 及 远离 道路 中 央 
行驶 。 然 后 ， 路 径 规划 算法 会 考虑 其 中 的 许多 路 笃 ， 并 选择 它 找到 的 最 
佳 路 笃 。 当 汽车 党 看 路 线 遇 速 前 进 时 ， 这 个 算法 会 持续 运行 ， 每 秒 大 约 
重复 10 次 ， 这 个 速度 足以 让 斯 坦 利 发 现 并 避 开 前 方 15~25 米 的 物体 。 三 
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3. Thrun,“Stanley”(note that the distance depended on the speed). 


斯 坦 利 大 脑 的 各 个 部 分 如 何 相互 交流 





当 斯 坦 福 车 队 设计 斯 坦 利 时 ， 车 队 需 要 弄 清楚 所 有 这 些 算 法 应 该 如 
何 相 互通 信 。 他 们 知道 如 何 将 它们 连接 起 来 ， 但 这 还 不 够 ， 他 们 还 需要 
弄 清楚 这 些 算法 在 相互 交流 时 所 遵循 的 协议 。 是 否 应 该 有 一 个 集中 
的 “ 主 进程 ”来 指挥 一 切 ? 它 应 该 被 组 织 成 某 种 层次 结构 吗 ? 车 队 选 择 了 
完全 相反 的 做 法 : 他 们 将 这 些 不 同 的 软件 模块 组 合 在 一 起 ， 让 它们 并 行 
运行 。 没 有 “ 主 进程 ”来 指导 这 些 模块 该 做 什么 。 志 








你 可 以 把 这 些 模块 想象 成 本 货 店 里 的 工人 ， 他 们 每 个 人 都 有 各 目的 
工作 。 杂 货 店 的 理 货 员 从 停 在 后 门 的 货车 上 凶 货 ， 然 后 把 这 些 货物 放 到 
正确 的 货架 上 。 收 银 员 为 顾客 结账 ， 经 理 定期 把 现金 从 收 蒜 机 转 到 银 
行 ， 为 杂货 店 订 购 更 多 的 商品 。 每 个 工人 都 在 持续 不 断 地 做 着 上 自己 的 工 
作 ， 而 且 大 部 分 工作 都 是 独立 于 其 他 人 的 。 





因为 商品 被 源源 不 断 地 放 到 货架 上 ， 而 且 收 银 员 总 是 在 收获 机 劳 为 
顾客 结账 ， 所 以 顾客 可 以 很 快 地 进出 杂货 店 。 我 们 可 以 说 杂货 店 的 服务 
古 低 延迟 的 。 服 务 的 速度 很 快 ， 因 为 收银 员 只 有 一 项 工作 一 一 为 顾客 结 
账 ， 他 不 负责 往 银 行 存 钱 ， 也 不 负责 理 货 。 











同 理 ， 斯 坦 利 也 可 以 对 事件 做 出 快速 反应 : 它 的 每 个 模块 都 可 以 快 
速 反应 ， 尤 其 是 那些 需要 对 环境 做 出 反应 的 模块 ， 因 为 每 个 模块 只 有 一 
项 工作 要 人 做。 斯 坦 利 的 模块 之 所 以 可 以 对 环境 做 出 快速 反应 ， 是 因为 它 
们 彼此 从 未 进行 过 充分 的 对 话 。 过 多 的 对 话 可 能 导致 参与 者 被 锁定 在 对 
话 中 ， 这 样 的 问题 被 称 为 死 锁 (deadlock) 。 如 果 两 个 组 件 陷 入 死 锁 ， 
整个 系统 可 能 会 突然 停止 ， 直 到 一 个 或 多 个 组 件 重 新 启动 后 才能 恢复 。 








这 并 不 意味 着 这 些 模 块 之 间 没 有 通信 。 它 们 始终 通过 向 对 方 发 送 单 











加 的 、 有 时 间 戳 的 信息 进行 着 通信 。 这 类 似 于 在 杂货 店 设立 公告 系统 ， 
例如 ， 经 理 可 以 提醒 收银 员 ， 商 店 的 1 美元 钞票 快 用 完了 ， 建 议 仅 在 必 
要 时 使 用 它们 。 如 果 收 银 员 从 不 与 经 理 陷入 长 时 间 的 交谈 ， 那 么 他 就 可 
以 更 可 徘 地 为 顾客 服务 。 





在 目 动 区 驶 汽车 中 ，GPS 和 加 速 计 估算 汽车 的 位 置 和 方 同 ， 用 当前 
的 时 间 戳 发 布 这 些 信 息 ， 并 继续 为 余下 的 比赛 获取 和 发 布 最 新 的 位 置信 
恩 ， 这 是 它们 唯一 的 工作 。 负 贡 像 素 聚 类 和 寻 路 的 模块 获取 了 摄像 机 和 
油光 扫描 仪 的 数据 ， 找 到 道路 ， 然 后 发 布 这 些 信息 ， 以 便 速 度 控制 器 和 
路 径 规划 需 可 以 方便 地 使 用 信息 。 与 此 同时 ， 寻 路 模块 根据 机 器 人 当前 
的 位 置 和 路 上 的 障碍 物 佑 算出 最 佳 路 径 ， 每 秒 钟 重复 10 次 。 总 共 大 约 30 
个 模块 都 是 这 样 工作 的 。 




















这 些 模块 为 斯 坦 福 车 队 赢得 了 200 万 美元 奖金 ， 并 使 斯 坦 利 在 机 器 
人 历史 上 占据 了 一 席 之 地 。 这 文 车 队 理应 获胜 ， 但 按照 现代 上 自动 驾驶 汽 
车 的 标准 ， 斯 坦 利 仍 然 非常 原始 。 事 实 上 ， 完 成 第 二 次 无 人 车 挑战 赛 的 
5 辆 汽车 都 不 能 在 城市 街道 上 行驶 。 它 们 无 法 面 对 迎 面 而 来 的 车 流 ， 无 
法 寻找 停车 位 、 换 车 道 以 及 处 理 交 通 堵塞 的 问题 。 








这 并 不 是 设计 上 的 缺陷 。 这 些 汽车 只 是 为 了 参加 比赛 而 存在 的 ， 比 
赛 并 不 要 求 它 们 可 以 在 城市 街道 上 行驶 。 但 是 DARPA 举 办 的 下 一 届 比 
赛 一 -DARPA 城 市 挑 成 赛 ， 将 会 改变 这 一 切 。 该 比赛 要 求 机 器 人 汽车 
在 有 车 辆 迎面 驶 来 的 城市 街道 上 按照 加 利 福 尼 亚 州 的 交通 法 规 行驶 。 这 
也 给 了 克 里 斯 和 他 在 卡 内 基 - 梅 隆 大 学 的 团队 《〈 那 文 打 造 悍马 的 车 队 ) 
再 度 剖 击 第 一 名 的 机 会 ， 只 要 他 们 可 以 制造 一 辆 汽车 来 完成 所 有 这 些 事 


情 。 








1. Thrun,*Stanley"(note that the distance depended on the speed). 


4 在 十 字 路 口 避 让 : AS RAEN KM 


在 这 一 点 上 上， 问题 自然 而 然 地 出 现 了 : 为 什么 这 么 多 独立 设计 的 架 
构 会 有 如 此 相似 的 结构 ? 三 个 组 成 部 分 是 充分 必要 的 ， 还 是 一 
数字 或 一 个 巧合 而 已 ? 


埃 伦 .加 特 (Erann Gat) © 


1. Erann Gat,“Three-Layer Architectures,”in Artificial Intelligence and MobileRobots:Case 
Studies of Successful Robot Systems,ed.David Kortenkamp,R.Peter Bonasso,and Robin 
Murphy(Cambridge, MA:MIT Press,1998),195—210. 
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备 。 这 时 ， 克 里 斯 已 经 成 为 卡 内 基 - 梅 隆 大 学 的 一 名 教授 。 他 也 是 卡 内 
基 - 梅 隆 大 学 车 队 的 全 权 人 负责 人 ， 车 队 现 在 改名 为 格子 车 队 (Tartan 
Racing) 。 克 里 斯 的 团队 不 仅 做 了 相当 大 的 调整 ， 还 让 他 们 的 悍马 退役 
了 ， 转 而 选择 2007 天 雪佛兰 塔 霍 汽 车 ， 他 们 将 这 辆 赛车 命名 为 Boss〈 意 
为 “老板 *) 。Boss 融 合 了 他 们 先前 设计 的 优点 以 及 他 们 从 前 一 年 的 斯 坦 
福 车 队 学 到 的 很 多 东西 。 三 




















这 次 挑战 赛 比 前 两 次 要 困难 得 多 。 在 前 两 次 比赛 中 ， 所 有 机 器 人 汽 
车 都 是 单独 行驶 的 ， 一 个 接 一 个 地 出 发 并 被 监控 着 ， 因 此 它们 不 会 互相 
干扰 。 但 城市 挑战 赛 不 同 。 这 些 目 动 驾驶 汽车 将 在 城市 街道 、 十 字 路 口 
和 停车 场 与 人 类 司机 一 起 围 关 一 座 老 军事 基地 行驶 ， 共 有 大 约 50 辆 汽车 
同时 在 路 上 。 而 且 这 里 也 不 允许 越野 行驶 ， 因 为 那样 汽车 会 因为 违犯 加 
利 福 尼 亚 州 的 交通 法 规 而 被 扣 分 ， 甚 至 被 取消 比赛 资格 。 三 








DARPA 在 2007 年 11 月 的 比赛 之 前 举行 了 几 轮 预 选 赛 。 有 一 轮 预 选 
赛 被 称 为 “夹击 ”， 它 要 求 赛车 小 心地 保持 在 自己 的 车 道内 行驶 ， 同 时 还 
要 避 开 停放 的 车 辆 和 其 他 障碍 物 。 另 一 轮 预选 赛 测 试 了 赛车 的 更 高 层次 
思维 ， 赛 车 需要 在 十 字 路 口 停 下 来 等 待 ， 并 在 轮 到 它们 通行 的 时 候 继续 
前 进 ， 并 且 它 们 需要 判断 路 径 何 时 会 被 挡住 ， 并 在 被 挡住 的 时 候 找 到 另 


一 条 路 径 。 














还 有 一 轮 预 选 赛 个 称 为 ‘A 区 ”， 它 测试 了 汽车 探测 和 避 开 移动 物体 
的 能 力 。 这 一 轮 预 选 赛 需 要 自动 驾驶 汽车 纸 圈 行驶 ， 在 迎面 而 来 的 车 流 
前 左 转变， 如 图 4.1 所 示 。 目 动 要 驶 汽车 需要 治 着 环 路 右 半 部 分 的 黑色 
箭头 行驶 ， 而 专业 人 类 罗 驶 员 则 在 外 环 中 经 疾 行 驶 。 
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图 4. 1 DARPA 城 市 挑战 赛 中 的 “A 区 ”。 当 自动 驾驶 汽车 在 右 半 部 分 绕 圈 时 ， 专 业 的 
人 类 驾驶 员 在 外 环 中 绕 圈 。 自 动 驾驶 汽车 面临 的 主要 挑战 是 在 “停车 让 行 ” 标 志 处 
与 沿 外 环行 驶 的 车 辆 合流 。 比 赛 要 求 自 动 驾 驶 汽车 在 规定 时 间 内 尽 可 能 多 地 绕 圈 


1. Chris Urmson et al.,“Autonomous Driving in Traffic:Boss and the Urban Challenge,” AI 
Magazine30,no.2(2009). 


2. Urmson et al., "Autonomous Driving in Traffic.” 


感知 抽象 


为 了 理解 Boss 在 这 些 环境 中 的 操控 方式 ， 让 我 们 更 深入 地 了 解 一 下 
克 里 斯 的 团队 是 如 何 开发 汽车 大 脑 的 。 就 像 斯 坦 利 〈 斯 坦 福 车 队 在 第 二 
次 无 人 车 挑战 赛 中 的 赛车 一样 ， 克 里 斯 及 其 团队 在 Boss 的 大 脑 中 指定 
了 一 个 层 ， 用 于 综合 来 自 18 个 传感器 的 数据 。 他 们 将 这 个 中 间 层 称 
为 “感知 和 环境 建 模 层 ”( 如 图 4.2 所 示 ) 。 与 斯 坦 利 的 感知 展 一 样 ，Boss 
的 感知 层 也 没有 任何 复杂 的 推理 ， 它 的 唯一 目的 是 解释 来 自 各 个 传感器 
(包括 激光 扫描 仪 、 雷 达 、 摄 像 机 、GPS 和 加 速度 计 等 ) 的 数据 ， 并 根 
据 这 些 数据 生成 更 高 层次 的 环境 模型 。 然 后 ， 该 层 生成 的 环境 模型 将 被 
在 更 高 层次 上 进行 推理 的 模块 用 于 执行 更 复杂 的 任务 。 = 





感知 和 环境 建 模 层 执 行 了 我 们 在 先前 的 比赛 中 看 到 的 一 些 任务 : di 
算 道 路 边缘 的 位 置 、 发 现 隐 人 碍 物 、 根 据 GPS 数 据 和 加 速度 计 跟 踩 汽 车 的 
位 置 。 但 是 对 于 在 城市 环境 中 行驶 ， 感 知 和 环境 建 模 层 需要 做 更 多 工 
作 。 随 着 其 他 汽车 来 来 往往 ，Boss 所 处 的 环境 可 能 会 发 生变 化 。 因 此 ， 
这 一 层 要 用 地 几 上 的 网 格 表示 树木 和 建筑 物 这 些 静 态 物体 ， 当 传感器 检 
测 到 物体 存在 时 就 填充 单元 格 ， 如 采 不 存在 就 清空 单元 格 。 它 还 要 理解 
DARPA 提 供 的 地 图 以 及 任务 的 说 明 ， 然 后 根据 检测 到 的 地 图 上 路 径 的 
CASE TUL Dal HAY. 三 











硬件 层 感知 和 环境 建 模 层 规划 和 推理 层 


路 线 规划 器 
激光 扫描 仪 
摄像 机 移动 物体 检测 


加 速度 计 障碍 物 检测 


和 陀螺 仪 
道路 边缘 检测 


通过 “有 限 状 态 
机 ”跟踪 要 做 的 
静止 和 移动 事情 
的 障碍 物 


道路 图 


汽车 的 位 置 和 速度 运动 规划 融 
通过 搜索 一 条 短 
路 径 来 规划 短期 
行动 (未 来 几 秒 
钟 的 行动 ) 





图 4. 2 Boss 的 简化 版 架构 。 硬 件 层 、 感 知 和 环境 建 模 层 、 规 划 和 推理 层 ， 按 照 从 左 

到 右 推 理 抽象 层次 不 断 提高 的 顺序 组 织 起 来 。 其 最 高 层次 的 规划 和 推理 层 由 三 个 模 

块 组 成 : 审议 器 (路线 规划 器 模块 ) 、 定 序 器 (大 富 丛 棋盘 模块 ) 和 控制 器 (运动 
规划 器 模块 ) 。 运 动 规划 器 可 能 会 和 大 富 伦 棋盘 放 在 一 起 


Boss 的 感知 和 环境 建 模 层 还 需要 检测 和 模拟 移动 物体 的 物理 特性 。 
检测 移动 物体 的 模块 要 遵守 一 个 规则 它 的 传 感 顺 所 做 的 每 一 次 观察 都 
应 该 与 它 的 物体 数据 库 中 的 一 个 固定 的 或 移动 的 物体 相关 联 。Boss 会 为 
这 种 关联 计算 一 个 质量 测评 。 如 果 测 评 结果 和 物体 之 间 匹 配 恨 好 ， 那 么 
这 个 测评 结果 就 会 被 整合 到 Boss 对 那个 物体 的 建 梗 中， 这 样 ， 在 Boss 看 
来 ， 物 体 就 会 改变 一 点 点 。 但 是 如 果 Boss 无 法 在 测评 结果 和 现 有 物体 之 











间 找 到 高 质量 的 匹配 ， 那 么 模块 就 会 提出 一 个 新 的 物体 来 解释 这 个 测评 
结果 。 有 了 时， 它 会 判定 有 一 个 静态 物体 ， 然 后 将 其 转换 为 移动 物体 。 例 
如 ， 如 果 Boss 明 到 一 辆 停 在 停车 位 但 随后 开始 移动 的 汽车 ， 束 会 发 生 这 
种 情况 。 








一 旦 Boss 探 测 到 一 个 移动 物体 ， 它 就 可 以 使 用 传统 的 跟踪 算法 来 跟 
踪 这 个 物体 。Boss 又 一 次 使 用 了 卡尔 曼 滤 波 器 来 跟踪 移动 物体 。 三 它 还 
假设 物体 或 是 像 自行 车 一 样 移动 (可 以 向 前 或 向 后 移动 ， 并 且 有 日 
标 〉， 或 是 像 漂移 点 一 样 移动 (可 以 同 任意 方 同 移动 ， 但 没有 目标 )， 
Boss 根 据 最 适合 数据 的 模型 做 出 决定 。 然 后 ， 关 于 这 些 模 型 的 假设 被 直 
接 集成 到 卡尔 曼 滤 波 器 中 。 卡 尔 曼 滤 波 器 非常 通用 ， 它 们 不 仅 可 以 跟 踩 
物体 的 位 置 ， 还 可 以 跟踪 物体 的 速度 和 加 速度 。 











Boss 将 这 些 物 体 想 象 成 在 它 的 虚拟 环境 中 移动 的 窍 形 和 其 他 多 边 
形 。 三 当然 ，Boss 并 没有 把 它们 视 作 场景 的 一 部 分 ， 而 是 把 它们 视 作 网 
格 上 的 坐标 。 对 Boss 而 言 ， 每 个 矩形 间 都 应 有 足够 的 间 隅 ， 无 论 Boss 是 
在 车 道上 跟随 矩形 还 是 从 对 面 车 道 划 着 矩形 前 进 。 











1. Urmson et al., Autonomous Driving in Traffic." 
2; 路 线 图 是 DARPA 在 比赛 前 两 天 提供 的 ， 任 务 说 明 是 在 比赛 当天 提供 的 。 
DARPA, “Urban Challenge Results,”accessed 


October22,2016.http://archive.darpa.mil/grandchallenge;Chris Urmson et al.,“Tartan Racing:A 
Multi-modal Approach to the DARPA Urban Challenge,”Technical Report,Carnegie Mellon 
University,2007. 
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这 种 方法 被 称 为 “粒子 过 滤器 ”( 人 参见 下 条 Michael Montemerlo et al.,“Junior’) 。 粒 子 过 滤 
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4. Michael Montemerlo et al.,“Junior:The Stanford Entry in the Urban Challenge,"Journal of 
Field Robotics29,no.9(2008):569—597. 




















比赛 


经 过 几 个 月 的 测试 和 期 待 ， 城 市 挑战 赛 终 于 来 了 。 在 比赛 期 间 ， 
Boss 和 其 他 车 辆 需要 完成 几 个 任务 ， 从 基地 的 一 个 检查 站 开 到 另 一 个 检 
查 站 ， 它 们 自始至终 都 要 在 满 是 自动 驾驶 汽车 和 人 类 和 萄 驶 汽车 的 城市 街 
道上 行驶 。DARPA 在 比赛 前 几 天 癌 参 赛 选 手提 供 了 场地 路 线 图 ， 并 在 
比赛 开始 前 仅仅 5 分 钟 的 时 候 问 参赛 队伍 提供 了 任务 说 明 。 这 些 任务 要 
求 车 辆 完全 自主 地 在 场地 的 街道 上 行驶 、 在 停车 场 停车 、 穿 过 繁忙 的 十 
字 路 口 。 

















DARPA 官 员 在 赛 后 写 道 ， 他 们 仔细 审查 了 参赛 者 的 申请 ， 通 过 预 
选 赛 将 最 后 参加 决赛 的 车 队 从 89 文 减少 到 11 文 ， 这 意味 看 行驶 在 决赛 赛 
道上 的 赛车 都 经 过 了 仔细 的 审查 。 .三 但 这 并 不 意味 着 路 上 的 人 类 驾驶 员 
束 安 全 了 ， 他 们 都 是 职业 驾驶 员 ， 痢 配备 了 安全 护 笼 、 赛 车 座 椅 和 灭火 
系统 ， 每 辆 目 动 驾驶 汽车 后 都 有 一 辆 人 类 驾驶 汽车 尾随 ， 车 上 的 敬 驶 员 
能 区 控 电 子 灭火 串 的 开关 。 目 动 驾 驶 汽车 虽然 经 过 了 审 合 ， 但 仍然 很 有 
可 能 威胁 人 类 驾驶 员 的 生命 安全 。= 


幸运 的 是 ， 比 赛 当 天 没有 发 生 重大 事故 。 一 辆 赛车 在 停车 场 发 生 故 
障 ， 并 险些 在 DARPA 官 员 按 下 电子 灭火 器 开关 之 前 开 进 一 栋 旧 楼 。 田 
外 两 辆 目 动 要 驶 汽车 之 间 发 生 了 低速 碰撞 。 到 中 午 的 时 候 ， 几 乎 半数 赛 
ZRET ER. 





然而 ， 包 括 Boss 在 内 的 几 辆 赛车 还 是 成 功 完 赛 了 。 在 三 年 的 时 间 
里 ， 目 动 要 驶 汽车 从 无 法 在 沙漠 中 行驶 超过 8 英里 变 成 了 可 以 在 路 上 行 
驶 数 小 时 ， 成 功 穿 过 繁忙 的 十 字 路 口 。 除 了 用 感知 和 环境 建 模 层 进行 观 
察 外 ，Boss 和 其 他 汽车 还 需要 一 种 方法 来 推算 它们 的 环境 。 在 之 前 的 两 
章 中 ， 我 们 看 到 的 汽车 全 都 无 法 做 到 这 些 ， 那 么 Boss 是 如 何 做 到 的 呢 ? 


1. 
2. 
3. 


DARPA,*Urban Challenge Results." 
DARPA,*Urban Challenge Results." 
DARPA,*Urban Challenge Results." 





Boss 的 高 层次 推理 层 


硬件 的 改进 是 一 个 因素 吗 ? 当然 ， 硬 件 一 直 在 改进 ， 但 是 自 第 一 次 
DARPA 无 人 车 挑战 赛 以 来 的 三 年 里 ， 自 动 驾 驶 汽车 的 硬件 并 没有 出 现 
超越 摩尔 定律 的 显著 革新 。〔 摩 尔 定 律 当时 预测 ， 流 行 处 理 器 的 性 能 
约 每 18~24 个 月 翻 一 番 。) 这 个 问题 的 真正 答案 在 于 这 些 汽车 软件 架构 
的 进步 ， 但 这 也 是 Boss 在 比赛 中 产生 “幻觉 "的 原因 。 





Boss 的 大 脑 核 心 是 三 个 模块 ， 它 们 的 抽象 推理 层次 逐个 降低 。 你 可 
以 在 图 4.2 的 架构 最 右边 的 板块 中 看 到 这 一 点 。 这 个 板块 的 项 部 是 路 线 
规划 器 模块 ， 它 搜索 Boss 从 当前 位 置 到 任务 的 下 一 个 检查 点 的 低 成 本 路 
线 。 这 很 像 斯 坦 利 的 模块 ， 该 模块 在 第 二 次 无 人 车 挑战 赛 开始 的 时 候 为 
斯 坦 利 规 划 了 平滑 的 路 线 。Boss 的 路 线 规划 器 不 是 在 比赛 开始 时 规划 一 
条 单一 的 路 线 ， 而 是 不 断 地 规划 路 线 ， 一 次 又 一 次 地 重新 估算 从 当前 位 
置 到 目的 地 的 最 佳 路 线 。 为 了 估算 路 线 ， 路 线 规划 器 在 成 本 函数 中 使 用 
了 时 间 和 风险 的 组 合 ， 相 信和 感知 和 环境 建 模 层 总 是 向 它 提供 最 新 的 地 
图 。 因 此 ， 它 需要 做 的 就 是 规划 路 线 ， 并 告诉 它 下 面 的 模块 (即位 于 图 
4.2 最 右边 的 板块 中 间 的 模块 ) 接 下 来 需要 做 什么 。 三 














我 们 将 路 线 规划 器 下 面 的 抽象 层 称 为 大 富 例 棋盘 模块 ， 原 因 你 很 快 
就 会 清楚 。 三 这 一 层 可 以 说 是 最 复杂 的 ， 因 为 它 需 要 跟踪 Boss 正 在 做 什 
么 以 及 接 下 来 需要 做 什么 。 它 是 用 一 种 叫 * 有 限 状态 机 ”的 东西 来 实现 这 
些 的 。 三 有 限 状态 机 为 计算 机 程序 提供 了 一 种 通过 限制 其 需要 处 理 的 事 
情 来 推算 环境 的 方法 。 它 的 工作 原理 很 像 《 大 富翁 》 游 戏 : 你 有 一 枚 可 
以 在 棋盘 上 移动 的 棋子 ， 在 任意 给 定 的 时 间 ， 你 的 棋子 都 会 在 棋盘 上 精 
确 地 处 于 一 个 状态 《即位 置 ) 。 这 个 状态 决定 了 你 现在 可 以 做 什么 以 及 
下 一 步 你 可 以 移动 到 什么 地 方 。 如 果 在 玩 《 大 富 竹 》 游 戏 时 走 到 了 一 处 
没有 人 占领 的 公园 ， 你 就 可 以 买 下 它 。 如 果 你 进 了 监狱 ， 要 出 去 有 三 种 
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广场 上 时 ， 任 何不 被 明 确 多 许 做 的 事情 ， 你 都 不 能 去 做 。 如 有 果 你 走 到 了 
公园 ， 就 无 法 购买 木板 路 或 收取 200 美 元 ， 除 了 购买 公园 《只 要 没 人 占 
领 ， 而 且 你 想 要 它 ) ， 你 什么 都 做 不 了 。 





你 在 大 富翁 棋盘 模块 上 的 当前 状态 (依然 是 你 的 位 置 ) 也 决定 了 你 
下 一 步 可 以 移动 几 步 。 这 取决 于 撕 角 子 的 结果 ， 有 时 你 可 能 会 向 前 移动 
多 达 12 个 格 ， 然 后 购买 一 处 地 产 ， 有 时 你 可 能 会 直接 进 监狱 。 但 是 你 不 
能 跳 到 棋盘 上 的 任意 位 置 。 











克 里 斯 及 其 团队 设计 Boss 的 时 候 ， 为 大 富翁 棋盘 模块 创造 了 各 种 有 
限 状态 机 ， 每 一 种 分 别 适 用 于 Boss 可 能 会 遇 到 的 环境 状态 。 当 Boss 驱 车 
前 行 时 ， 它 的 大 富 命 棋盘 模块 围绕 着 它 的 有 限 状 态 机 移动 一 枚 虚拟 的 大 
富 侈 棋子 ， 以 此 记录 汽车 正在 做 什么 以 及 需要 做 什么 来 实现 下 一 个 目 
标 。 


根据 Boss 的 现 况 ， 它 的 大 富翁 棋盘 模块 分 别 使 用 三 个 有 限 状态 机 
(一 个 负责 沿 着 道路 行驶 ， 比 如 监控 是 否 需要 换 车 道 ， 一 个 负责 十 字 路 
口 ， 还 有 一 个 负责 操控 Boss 进 入 某 个 特定 的 位 置 ， 例 如 停车 位 或 拥挤 的 
十 字 路 口 的 另 一 侧 ) 中 的 一 个 。 这 些 有 限 状 态 机 中 的 每 一 个 都 概述 了 模 
块 为 实现 其 目标 应 该 遵循 的 一 组 简单 规则 。 无 论 在 哪里 ，Boss 的 大 富 侈 
棋盘 模块 都 会 用 它 在 棋盘 上 的 虚拟 棋子 来 追踪 环境 和 它 的 目标 。 








图 4.3 展 示 了 简化 版 的 Boss 用 于 通过 十 字 路 口 的 有 限 状态 机 。 三 在 
这 个 有 限 状态 机 中 ， 你 可 以 理解 Boss 穿 过 十 字 路 口 的 推理 过 程 。 当 轮 到 
Boss 进 入 十 字 路 口 时 ， 它 会 等 等 十字 路 口 清 空 ， 并 确保 安全 时 间 长 到 足 
以 让 它 通 过 。Boss 通 过 使 用 男 一 个 更 小 的 叫 “ 优 先 权 估 算 器 ”的 有 限 状 态 
机 来 实现 这 一 点 。 优 先 权 估 算 器 根据 常见 的 驾驶 规则 来 确定 Boss 是 殖 





进入 十 字 路 口 的 优先 权 。Boss 如 何 知 道 这 些 萄 驶 规则 ? 程序 员 只 需 将 它 
们 编码 为 有 限 状 态 机 的 一 组 状态 和 转换 即 可 ， 就 像 《 大 定 伍 》 游 戏 的 发 
明 者 伊丽莎白 : 蕊 吉 CElizabeth Magie? RMA (KB) WHA CHE 
游戏 》 创 建 规则 一 样 。 这 不 仅 是 针对 优先 权 估 算 器 的 ， 人 们 会 为 所 有 的 
有 限 状 态 机 编码 规则 。 

















富翁 棋盘 模块 执行 了 大 部 分 你 可 能 会 联想 到 的 与 要 驶 相关 的 人 类 
推理 ， 但 Boss 并 不 需要 智能 就 和 HERRE AIUD. AXI CAA 
33) WERK, HES TATE SEM ARREST oN. (EEA E R 
模块 实际 上 并 不 是 真 的 在 玩 《 大 曲 伍 》 游 戏 ， 它 没有 任何 关于 成 功 或 胜 
利 的 概念 ， 所 以 它 没有 做 出 任何 关于 它 应 该 做 什么 或 下 一 步 该 去 哪里 的 
慎重 的 战略 决 集 。 它 更 像 是 《大 富 伍 》 游 戏 的 规则 手册 。 在 每 个 状态 
下 ， 大 富 兮 棋盘 模块 只 是 遵循 一 组 极其 简单 的 规则 ， 然 后 根据 男 一 项 简 
TE ERRAI PAIRS. BossWüscstir SFA TAN LR, dH 

这 发 生 在 它 的 路 线 规划 器 ， 即 我 们 在 儿 页 前 看 到 的 用 于 搜索 路 径 的 模块 
中 。 















fed 我 们 是 否 十 字 路 口 是 否 有 
否 正常 ? 有 优先 权 ? 一 部 分 被 堵塞 ? 


将 十 字 路 口 视 
为 一 个 “区 域 ” 
Wh 


图 4. 3 负责 十 字 路 口 的 有 限 状 态 机 。 大 富翁 棋盘 模块 按照 上 图 中 从 “开始 ”到 “ 完 

成 ”的 顺序 逐步 执行 。 有 限 状 态 机 等 待 优 先 权 ， 然 后 Boss 尝 试 进入 十 字 路 口 。 如 果 

十 字 路 口 有 一 部 分 被 堵塞 ，Boss 就 将 其 视 为 一 个 “区 域 ” 驶 过 ， 即 将 其 视 为 停车 场 

一 样 的 复杂 区 域 ， 而 不 是 车 道 。 有 限 状 态 机 会 创建 一 条 通过 十 字 路 口 的 虚拟 车 道 ， 
并 让 Boss 在 这 条 虚拟 车 道上 行驶 


因此 ， 大 主 翁 棋盘 模块 的 职责 是 ， 从 路 线 规划 器 手中 接 过 任务 ， 跟 
踩 任 务 完成 进度 ， 然 后 将 行动 委托 给 下 一 个 层次 一 一 运动 规划 器 ， 直 到 
任务 完成 。 


运动 规划 器 (图 4.2 右 下 角 所 示 的 模块 〉 的 职员 是 为 汽车 找到 并 执 
行 一 条 路 径 ， 使 其 从 当前 位 置 安全 地 驶 向 大 富翁 棋盘 指定 的 目标 位 置 。 
例如 ， 大 富翁 棋盘 可 能 会 命令 运动 规划 圳 执行 以 下 操作 之 一 : 


^ 





2 
应 


国 规 划 并 执行 一 条 路 径 ， 把 车 停 在 那 边 的 空地 上 【给 运动 规划 器 指 
定 一 个 位 置 ) 。 


图 继续 沿 着 这 条 车 道 直行 。 
图 切换 到 左 侧 车 道 。 
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器 ， 只 是 运动 规划 器 的 目标 是 在 更 短 的 时 间 单 位 上 规划 运动 。 路 线 规划 
璐 以 分 钟 和 英里 为 单位 规划 运动 ， 而 运动 规划 规 以 秒 和 英 矿 为 单位 规划 
运动 : 运动 规划 器 最 大 不 过 在 约 13 英 里 的 范围 内 规划 运动 。 三 

















富翁 棋盘 假设 运动 规划 融会 设法 安全 地 实现 目标 ， 但 是 运动 规划 
髓 可 以 告诉 大 富翁 棋盘 它 失 败 了 ， 例 如 ， 直 到 它 试 图 停车 时 才 看 到 停车 
位 被 一 辆 摩托 车 占 了 ， 在 这 种 情况 下 ， 大 富翁 棋盘 会 寻找 一 个 应 急 计 
Xl. v 





路 线 规划 器 和 运动 规划 器 之 间 的 另 一 个 区 别 是 ， 在 搜索 路 径 的 时 
候 ， 路 线 规划 器 只 需要 考虑 汽车 在 地 图 上 的 位 置 ， 而 运动 规划 器 需要 跟 
踩 汽 车 的 位 置 、 速 度 和 方 同 ， 同 时 确保 Boss 不 违反 任何 物理 定律 。 汽 车 
只 能 朝 着 车 轮 指 同 的 方 癌 行驶 。 除 非 出 现 问 题 ， 否 则 车 轮 不 会 侧 癌 村 
移 ， 运 动 规划 器 需要 考虑 到 这 一 点 〈 机 器 人 专家 将 此 称 为 汽车 的 运动 学 
AVR) 。 运 动 规划 器 还 确保 汽车 不 会 过 快 地 加 速 、 转 弯 或 停车 ， 即 它 不 
应 该 猛烈 地 加 速 或 刹车 ， 也 不 应 该 高 速 转弯 以 致 翻车 。 红 色 车 队 的 悍马 
在 测试 期 间 发 生 过 翻车 ， 这 次 事故 在 第 一 次 无 人 车 挑战 赛 开 赛 前 仅仅 几 
周 的 时 候 摧毁 了 它 的 传感器 ， 价 值 25 万 美元 的 电子 产品 瞬间 文 离 破 碎 。 
三 后 来 ， 悍 马 的 传感器 再 没 能 复原 ， 这 可 能 也 对 悍马 在 那 次 比赛 中 的 表 
现 有 一 些 影响 。 





Boss 的 运动 规划 器 的 寻 路 算法 要 比 它 的 路 线 规划 算法 复杂 一 些 ， 因 
为 它 需 要 跟踪 Boss 的 位 置 、 速 度 和 方向 《我 们 可 以 把 这 三 者 统称 为 “ 状 





AS”) 。 运 动 规划 占 无 法 在 一 个 简单 的 网 格 中 搜索 路 径 ， 因 为 仅 任 网 格 
它 无 法 跟踪 所 有 这 些 东西 。 在 停车 场 ， 运 动 规划 器 寻找 从 当前 位 置 到 目 
标 位 置 的 最 佳 路 径 的 方法 ， 是 将 非常 小 的 路 径 片 段 连接 成 一 条 路 线 ， 每 
个 路 径 片 段 确保 Boss 的 速度 和 位 置 遵 循 物理 定律 。 例 如 ， 如 果 一 个 路 径 
片段 的 开头 指示 ，Boss 处 于 当前 位 置 ， 面 朝 前 方 ， 以 每 秒 5 英尺 的 速度 
前 进 ， 没 有 加 速度 ， 那 么 该 路 径 片段 的 末端 信息 就 需要 与 开头 一 致 。 它 
必须 明确 肯定 ，Boss 位 于 当前 位 置 前 方 5 英尺 处 ， 面 朝 前 方 ， 以 每 秒 5 英 
尺 的 速度 前 进 。 三 我 在 图 4.4 的 4 张 图 中 展示 了 这 个 过 程 的 一 个 例子 。 这 
种 规划 可 能 需要 时 间 ， 于 是 Boss 使 用 第 二 个 运动 规划 器 同时 规划 它 的 后 
续 路 径 ， 因 而 无 须 在 运动 中 暂停 。 











为 了 上 路 行驶 ，Boss 的 运动 规划 需 还 使 用 了 一 种 更 像 斯 坦 利 的 转 回 
算法 的 搜索 算法 。 首 先 ， 它 为 汽车 生成 了 一 组 可 能 的 轨迹 。 轨 迹 从 汽车 
当前 的 位 置 和 速度 开始 ， 在 道路 的 远 处 结束 ， 但 在 横 疝 偏 移 和 弯曲 弧度 
方面 有 所 变化 。 然 后 运动 规划 豆 根 据 这 些 路 径 的 平滑 度 、 它 们 与 道路 中 
央 的 距离 以 及 它们 与 障碍 物 的 距离 等 因素 对 这 些 路 径 进行 评分 。 三 随 
后 ，Boss 持 续 运 行 这 个 运动 规划 项 ， 不 断 地 通过 它 的 当前 状态 寻找 最 佳 
路 径 。 这 意味 着 它 会 不 断 地 调整 路 径 ， 适 当地 纠正 出 现 的 小 误差 。 




















(a) 大 富 分 棋盘 指示 自动 驾驶 汽车 的 运动 规划 器 把 车 停 在 指定 的 停车 位 上 。 





(b) 汽车 有 一 个 用 网 格 表示 的 内 部 地 图 ， 障 碍 物 会 填充 网 格 中 的 单元 格 。 运 动 规划 器 在 选择 路 径 
时 也 使 用 了 成 本 函数 。 成 本 函数 体现 了 单元 格 与 障碍 物 ( 在 本 例 中 障碍 物 是 其 他 车 辆 ) 之 间 
的 距离 。 





(c) 运动 规划 器 搜索 一 条 通 往 目 标的 路 径 。 路 径 包 含 许 多 编码 了 速度 、 位 置 和 方向 的 小 路 径 片 
段 。 与 此 图 不 同 的 是 ， 搜 索 过 程 是 从 完成 状态 执行 到 开始 状态 。 








See 


(d) 通 向 目标 的 候选 路 径 。 


图 4. 4 
1. Urmson et al.,“Tartan Racing.” 
2. 富翁 棋盘 模块 的 正式 名 称 是 “行为 执行 模块 ”。 
3 Urmson et al.,“Tartan Racing.” 
4. Urmson et al.,“Tartan Racing.” 
5. Chris Urmson et al.,“Autonomous Driving in Urban Environments:Boss and the Urban 
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它 使 用 一 种 叫 “ 格 点 搜索 ”的 方法 来 实现 这 一 点 。 


Urmson et al.,“Autonomous Driving in Urban Environments.” 
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图 4.2 右 侧 板块 中 的 三 个 高 层次 推理 模块 一 一 路 线 规 划 器 、 大 富翁 
棋盘 以 及 运动 规划 需 ， 让 Boss 能 够 在 比赛 当天 行驶 在 老 军 事 基地 中 。 然 
而 ， 当 Boss 在 比赛 中 开始 出 现 “ 约 党 ?时 ， 到 目前 为 止 我 所 描述 的 系统 都 
无 法 拯救 它 。 








在 预选 赛 中 ，Boss 已 经 证 明了 它 是 准备 最 充分 的 选手 之 一 。 但 是 在 
城市 挑战 赛 中 ， 当 在 路 上 疾驰 以 完成 其 中 一 项 任务 时 ， 它 发 现 前面 的 车 
道 被 男 一 辆 车 挡住 了 。Boss 放 慢 速 度 ， 停 了 下 来 ， 等 每 着 。 它 做 了 几 次 
前 进 的 尝试 ， 但 无 法 通过 : 道路 完全 被 挡住 了 。 三 于 是 Boss 等 待 着 ， 比 
赛 计时 器 上 的 时 间 一 秒 一 秒 地 过 去 。 














问题 是 ， 交 通 堵塞 并 不 存在 。Boss 面 前 空空 如 也 ， 它 所 认为 的 车 道 
被 挡住 只 是 “ 约 觉 >。 这 并 不 是 Boss 第 一 次 在 比赛 当天 出 现 “ 弥 党”。 :三 








Boss 的 “ 约 沉 ?是 由 它 的 感知 算法 中 的 一 个 问题 引起 的 。 如 果 它 看 到 
前 面 有 一 辆 车 ， 随 后 那 辆 车 开 走 了 ， 此 时 它 并 不 总 是 清楚 它 对 那 辆 车 位 
置 的 估算 是 否 正确 ， 所 以 它 偶 尔 会 认为 那里 还 有 东西 。 改 进 感 知 算法 可 
以 避免 这 种 “ 约 沉 ?， 殉 里 斯 和 他 的 团队 在 构建 复杂 软件 方面 经 验 丰 寅 ， 
他 们 知道 所 有 软件 都 存在 缺陷 。 幸 运 的 是 ， 他 们 有 移 见 之 明 ， 让 Boss 能 
应 对 这 样 的 问题 。 





Boss 过 到 的 问题 与 悍马 在 第 一 次 无 人 车 挑战 赛 过 到 的 问题 类 似 ， 妆 
时 悍马 被 困 在 了 一 块 岩 石 后 面 。 殉 里 斯 的 团队 在 第 二 次 无 人 车 挑战 赛 中 
解决 了 这 个 问题 ， 他 们 为 悍马 编写 程序 ， 让 它 在 补 困 住 时 后 退 10 米 ， 清 
除 它 对 障碍 的 估算 ， 然 后 再 试 一 次 。 但 这 只 是 应 急 之 策 ， 一 种 脆弱 的 解 
决 方案 ， 一 种 权宜 之 计 ， 并 不 是 很 有 效 ， 而 且 在 拥挤 的 十 字 路 口 可 能 根 








本 行 不 通 。 元 里 斯 的 团队 需要 一 个 能 够 弥补 缺陷 或 处 理 意外 情况 的 系 
统 ， 一 个 永 不 放弃 的 系统 。 通 过 在 eg d 的 错 
误 恢复 系统 ， 他 们 在 Boss 中 实现 了 这 一 想法 。 这 个 系统 有 三 dum 
WU), ib ARR AB BIS pe oe pR (Isaac Asimov) 的 机 器 人 三 定律 : 





全 在 问题 得 到 解决 之 前 ， 汽 车 应 该 愿意 承担 越 来 越 大 的 风险 ， 并 且 
不 应 该 重复 它 的 复位 尝试 。 


图 复位 行为 应 适合 驾驶 环境 。 例 如，Boss 在 行车 道上 的 复位 行为 应 
该 不 同 于 在 停车 场 的 复位 行为 。 


秤 错误 恢复 应 尽 可 能 简单 ， 以 减少 引入 更 多 软件 缺陷 或 不 良 行为 的 
可 能 性 。 


作为 最 后 的 努力 ， 如 果 Boss 在 5 分 钟 内 移动 不 超过 一 米 ， 它 的 错误 
恢复 系统 就 会 利用 一 个 叫 作 “摆动 ”(wiggle〉 的 算法 随机 选择 一 个 附近 
的 目标 位 置 。 这 个 想法 认为 Boss 应 该 能 够 自行 摆脱 它 所 过 到 的 一 切 困 
境 ， 然 后 清除 记忆 并 再 斌 一次。 过 


ee。 

豚 错误 恢复 。 第 一 ， 筷 会 试图 到 达 一 个 略微 越过 交通 堵塞 处 的 位 置 ; 
2c rus pd ori 第 三 ， 它 会 试图 
到 达 一 个 远 远 越 过 交通 堵塞 处 的 位 置 ， 第 四 ， 筷 会 后 退 ， 并 试图 再 次 到 
达 一 个 越过 交通 墙 塞 处 的 位 置 ， 第 五 ， 它 会 假设 前 面 的 路 被 完全 墙 住 ， 
然后 掉头 。 当 它 假设 道路 完全 被 堵 住 时 ， 筷 实际 上 是 在 感知 和 环境 建 模 
层 的 路 线 图 中 把 这 条 路 标记 为 无 法 通行 ， 从 而 让 路 线 规 划 需 寻找 另 一 条 
EE. 三 


在 比赛 中 ，Boss 出 现 了 两 次 “ 约 沉 >， 结果 那天 多 开 了 两 英里 ， 对 一 
场 耗 时 约 4 小 时 的 比赛 来 说 ， 这 只 是 小 暴 烦 。 虽 然 遇 到 了 些小 抹 烦 ， 但 
Boss 还 是 领先 斯 坦 福 车 队 的 赛车 19 分 钟 完 赛 。 E 一 个 元 余 的 错误 恢复 系 








统 是 Boss 的 架构 中 最 重要 的 部 分 之 一 ， 其 中 更 高 层次 的 规划 可 以 解决 低 
层次 规划 或 感知 方面 的 问题 ， 这 让 克 里 斯 和 他 的 团队 记得 了 期 得 已 久 的 
大 奖 
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三 层 架 构 


是 什么 让 Boss 和 第 三 章 中 的 斯 坦 利 能 够 如 此 出 色 地 工作 ? 正如 我 们 
所 见 ， 这 与 它们 的 推理 架构 有 很 大 关系 。Boss 和 斯 坦 利 的 一 个 关键 设计 
原则 是 将 架构 组 织 成 硬件 层 、 感 知 和 环境 建 模 层 、 规 划 和 推理 层 ， 即 图 
4.2 中 从 左 到 右 的 三 层 。 正 如 我 们 所 见 ， 感 知 和 环境 建 模 层 使 图 4.2 右 侧 
的 规划 和 推理 层 能 够 专注 于 更 高 级 别 的 任务 。 规 划 和 推理 层 没 有 承担 处 
理 低 层次 传感器 数据 的 任务 ， 因 为 这 是 感知 模块 的 任务 。 反 过 来 ， 感 知 
模块 主要 是 通过 机 器 学 习 模型 实现 的 ， 这 些 模型 将 原始 的 传感器 数据 转 
化 为 可 操作 的 信息 ， 但 它们 并 不 关注 任何 高 层次 的 规划 或 决策 。 正 如 我 
们 在 上 一 章 看 到 的 ， 每 个 感知 模块 都 有 一 项 工作 要 做 ， 这 意味 着 每 个 模 
块 都 可 以 快速 完成 各 目的 工作 。 














但 Boss 还 展示 了 目 动 驾驶 汽车 的 其 他 一 些 更 重要 的 特点 ， 它 能 够 执 
行 复 杂 的 行为 ， 比 如 在 城市 环境 中 行驶 数 英 里， 把 车 停 到 停车 位 以 及 与 
其 他 正在 行驶 的 汽车 交互 ， 同 时 它 还 能 从 容 地 应 对 意外 情况 。 








谷歌 的 母 公司 Alphabet 〈 字 母 表 ) 的 一 辆 自动 驾驶 汽车 在 加 利 福 尼 
亚 州 山 景 城 附近 行驶 时 遇 到 了 一 个 相当 奇怪 的 情况 。 克 里 斯 : 厄 姆 森 在 
2015 年 TED 〈 和 科技、 娱乐、 设计 ) 大 会 演讲 中 描述 了 这 一 场景 ， 他 指 着 
一 段 现 场 视频 说 : 


一 位 坐 在 电动 轮椅 上 的 妇女 在 路 上 追赶 一 只 鬼 转 子 的 鸣 子 。 事 实证 
明 ， 在 车 辆 管理 局 的 驾驶 手册 中 ， 没 有 任何 一 处 告诉 你 应 该 如 何 处 理 这 
种 情况 。 但 是 我 们 的 车 辆 能 够 处 理 这 种 情况 ， 减 速 并 安全 行驶 。 三 


如 果 所 有 意外 情况 都 像 在 街 上 遇 到 一 位 坐 在 电动 轮椅 上 奶 赶 鸭子 的 
妇女 那样 罕见 ， 那 么 目 动 驾驶 汽车 可 能 就 不 会 有 问题 了 。 但 总 体 来 看 ， 





这 些 奇怪 的 意外 情况 的 祸根 是 ， 它 们 经 常 发 生 ， 而 且 总 是 有 斥 不 同 。 它 
们 可 能 是 由 施工 区 域 的 标志 缺失 ， 雪 山路 上 的 链条 设施 挡住 了 道路 ， 甚 
至 警察 焉 导 十 字 路 口 的 车 流 造 成 的 。 每 一 种 情况 都 有 目 己 的 独特 之 处 ， 
目 动 要 驶 汽车 必须 能 够 处 理 所 有 这 些 意 外 情况 。 那 么 ， 是 什么 让 Boss 能 
够 处 理 这 些 情况 的 呢 ? 





我 们 可 以 通过 研究 元 里 斯 团队 在 设计 Boss 时 做 出 的 第 二 个 重要 决 集 
来 回答 这 个 问题 ， 将 更 高 层次 的 规划 和 推理 层 组 织 成 抽象 水 平 不 断 增 强 
的 三 个 层次 ， 如 图 4.2 最 右边 的 板块 中 所 示 的 三 个 模块 。 在 机 器 人 领 
域 ， 这 种 组 织 智能 体 〈agent) 的 方式 有 时 被 称 为 “三 层 架 构 ”， 它 让 斯 坦 
利和 Boss 这 样 的 自动 要 驶 汽车 能 够 在 实时 环境 中 快速 做 出 反应 。 需 要 强 
调 的 是 ， 当 我 提 到 三 层 架 构 时 ， 我 指 的 是 网 4.2 右 侧 的 三 个 模块 ， 而 不 
是 Boss 大 脑 从 左 到 右 的 三 层 组 织 。 











三 层 架 构 的 顶层 架构 叫 作 审议 右 ， 它 执行 审议 行为 ， 这 通常 涉及 组 
慢 仔细 的 规划 。 以 Boss 为 例 ， 这 个 缓慢 的 、 深 思 熟 奈 的 步骤 正 是 由 它 的 
路 线 规划 器 完成 的 ， 这 束 是 Boss 规 划 最 蝇 层 次 目标 的 地 方 。 路 线 规划 器 
在 城市 环境 中 寻找 路 径 ， 或 许 这 就 是 它 最 “智能 ”的 行为 。 制 定 这 些 目标 
是 可 能 的 ， 因 为 路 线 规划 器 不 需要 担心 感知 (感知 模块 负责 处 理 ) ， 也 
不 需要 担心 突 发 的 意外 事件 〈 大 富翁 棋盘 负 贡 处 理 ) 。 路 线 规划 器 只 需 
要 规划 任务 和 路 径 。 

















三 层 架 构 的 压 层 叫 作 控 制 占 。 而 在 Boss 的 例子 中 ， 控 制 硕 束 实际 上 
包含 了 它 的 运动 规划 需 以 及 转 同 和 速度 控制 器。 三 这 一 层 执行 相对 低级 
的 操作 ， 比 如 * 停 在 那 边 的 那个 位 置 ?。 运 动 规划 器 与 执行 器 相关 联 ， 执 
行 器 直接 控制 方向 盘 、 刹 车 和 油门 。 这 一 层 还 包括 我 们 在 第 一 章 中 看 到 
的 三 规则 控制 器 。 传 统 上 ， 控 制 占 不 会 做 任何 非 第 智能 的 事情 ， 它 的 目 
的 是 执行 简单 的 操作 并 对 简单 的 传感器 读数 做 出 反应 。 它 对 环境 的 一 个 
典型 反应 可 能 是 增加 发 动机 扭 窍 或 条 车 ， 让 汽车 的 速度 达到 目标 速度 。 








FE EH pU RU till a ZA XEH RR. EP a AY H ip ce a daas 
RIRS, TUTO A BRAIN aS ES Bossi XE FF si Los E 
AE Sa BR. FE Pa BE n dard a AE ERMS FA BA 
在 执行 整个 序列 之 前 ， 环 境 的 状态 可 能 会 改变 。 如 果 一 个 机 器 人 无 法 对 
不 断 变 化 的 环境 做 出 反应 ， 那 么 它 会 出 现 什么 问题 呢 ? 请 想象 ， 我 设计 
了 一 个 机 器 人 管家 给 你 倒 酒 。 这 个 机 器 人 可 能 会 从 厨房 里 拿 出 一 瓶 酒 ， 
来 到 你 喘 边 ， 伸 出 机 械 手 拿 起 酒 瓶 给 你 倒 酒 。 你 可 能 会 帮忙 把 你 的 酒杯 
从 桌子 上 举 到 机 器 人 面前 ， 让 它 更 容易 倒 。 机 需 人 管家 却 一 直 计 划 把 酒 
直接 倒 进 果子 上 的 酒杯 里 ， 于 是 便 忽 略 了 你 的 手势 ， 直 接 把 一 杯 酒 倒 在 
TRTE. 





这 样 的 机 器 人 管家 是 不 可 接受 的 ， 更 不 用 说 这 样 的 自动 驾驶 汽车 
了 。 实 时 人 工 智能 系统 需要 对 环境 的 变化 做 出 反应 。 对 Boss 而 言 ， 有 限 
状态 机 是 用 来 跟踪 控制 器 成 功 完成 了 哪些 操作 以 及 接 下 来 应 该 尝试 哪些 
操作 的 。 如 果 在 控制 器 执行 其 任务 之 前 环境 发 生 了 变化 ， 那 么 定 序 器 就 
可 以 提出 应 急 计划 并 向 控制 器 发 送 更 新 的 指令 。 





埃 伦 : 加 特 是 加 州 理工 大 学 喷气 推进 实验 室 的 一 名 研究 员 ， 他 和 其 
他 几 个 研究 团队 在 设计 机 器 人 时 ， 同 时 发 现 了 这 种 三 层 架 构 一 一 审议 
器 、 定 序 器 和 控制 器 。 基 于 他 们 的 共同 研究 ， 他 总 结 了 定 序 器 的 作用 : 





定 序 器 的 基本 设计 原则 是 一 个 叫 “ 认 知 失效 ”的 概念 。 认 知 失效 是 
系统 可 以 以 菜 种 方式 检测 到 的 失效 。 我 们 并 不 是 在 设计 永远 不 失效 的 算 
法 ， 而 是 使 用 (几乎 ) 永远 都 能 成 功 检 测 出 失效 的 算法 。 = 

为 什么 要 费心 设计 有 时 会 失效 的 算法 ， 而 不 是 设计 永 不 失效 的 算法 
NE? 

首先 ， 设 计 会 出 现 认 知 失效 的 导航 算法 ， 要 比 设计 永 不 失效 的 导航 


算法 容易 得 多 。 其 次 ， 如 果 检 测 到 失效 ， 算 法 就 可 以 采取 纠正 措施 ， 从 
失效 中 恢复 。 因 此 ， 如 果 算 法 的 失效 属于 认 知 失效 ， 那 么 高 失效 率 的 算 


法 就 可 以 组 合成 一 个 整体 失效 率 很 低 的 算法 。! 了 





三 层 架 构 现在 看 起 来 似乎 很 明显 ， 但 起 初 它 并 不 那么 显而易见 。 为 
了 理解 其 中 的 原因 ， 我 们 有 必要 了 解 一 下 三 层 架 构 之 前 的 一 些 版 本 。 正 
如 埃 伦 :加 特 回忆 的 那样 ， 这 样 的 染 构 之 一 是 感知 一 计划 一 动作 架构 
(Sense-Plan-Act, SPA) ， 它 在 1985 年 之 前 一 直 被 广泛 应 用 于 机 器 人 
中 。 三 这 种 架构 名 副 其 实 ， 机 器 人 感知 周围 的 环境 ， 计 划 下 一 步 ， 并 执 
行 这 一 步 。 信 息 在 一 个 方向 上 流动 ， 从 传感器 到 规划 喜 再 到 控制 器 。 当 
然 ， 这 种 架构 的 缺点 在 于 它 没有 有 反馈。 如 果 你 的 机 器 人 管家 采用 的 是 感 
知 一 计划 一 动作 架构 ， 那 么 我 建议 你 只 让 它 给 你 倒 清水 。 














埃 伦 : 加 特 发 现 ， 感 知 一 计划 一 动作 架构 之 后 是 各 类 包容 式 架 构 

(subsumption architecture) 。 它 们 看 起 来 像 是 感知 一 计划 一 动作 架构 ， 
言 轧 从 传感器 流 癌 规划 堪 再 到 控制 器 ， 但 它们 的 不 同 之 处 在 于 ， 其 模块 
可 以 通过 “上 履 善 ? 较 低 层次 的 动作 对 环境 做 出 反应 。 采 用 包容 式 架 构 设 计 
的 机 器 人 可 以 在 实验 室 里 快速 穿梭 ， 比 采用 感知 一 计划 一 动作 架构 的 前 
非 们 更 令 人 距 距 称奇 ， 但 机 器 人 专家 发 现 它们 的 架构 变 得 非常 复杂 。 层 
次 之 间 的 连接 变 得 混乱 ， 模 块 之 间 以 不 可 预知 的 方式 交互 ， 对 底层 的 小 
改动 可 能 需要 重新 设计 整个 系统 才能 实现 。 这 些 系统 的 设计 变 成 一 团 乱 
Wee FATE, SRR ABEL La A HE PRB QD, MEARE AS 
同 部 分 之 间 提 供 了 清晰 的 分 离 ， 因 此 我 们 仍然 可 以 理解 它 。 三 




















作为 控制 器 的 一 部 分 ，Boss 的 运动 规划 器 相当 复杂 ， 它 本 和 喘 几 乎 就 
拥有 一 个 三 层 架 构 ， 但 没有 定 序 器 。 这 种 复杂 性 还 暗示 了 另 一 种 可 能 
性 : 如 采 我 们 纪 套 三 层 杂 构 ， 让 其 中 一 个 充当 必 一 个 的 控制 器 呢 ? 我 们 
甚至 可 以 想象 ， 有 一 天 城市 会 使 用 人 工 知 能 来 改善 交通 拥堵 。 在 规划 的 
最 高 层 ， 一 些 模块 可 能 会 搜索 最 优 的 交通 流量 ， 在 控制 器 中 告诉 每 辆 目 
动 当 驶 汽车 它 不 能 走 的 路 线 ， 以 减少 高 峰 时 段 的 拥堵 。 城 市 的 定 序 器 可 
能 会 对 事故 和 其 他 突 发 事件 做 出 反应 。 

















BOTT LZ ES fi AY E 2] 28 SEAS 9r n] EACH = RR ARSE 
根据 城市 的 定 序 器 强加 的 约束 以 及 它们 目 己 的 目标 ， 目 动 驾 驶 汽车 会 相 
应 地 规划 各 目的 任务 。 
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目 动 驾驶 汽车 看 到 的 物体 


机 絮 学 习 在 目 动 驾驶 汽车 中 的 作用 已 经 磊 受 瞩目 ， 以 致 许多 人 将 执 
行 感知 的 算法 与 执行 高 级 规划 的 算法 混 消 在 了 一 起 。 这 在 一 定 程度 上 可 
能 是 因为 Alphabet 公 司 的 目 动 区 驶 汽车 已 经 上 路 行驶 ， 并 在 新 闻 报 道 机 
虱 学 习 的 其 他 重大 突破 (许多 突破 也 来 自 Alphabet 旗 下 的 公司 ， 比 如 合 
歌 ) 时 引起 了 媒体 的 关注 。 虽 然 智能 的 机 器 学 习 算 法 可 以 存在 于 自动 芍 
驶 汽车 的 规划 层 项 屋 ， 但 是 大 部 分 高 级 推理 层 都 源 于 已 经 在 人 工 乔 能 领 
域 存 在 了 数 十 年 的 思想 ， 例 如 搜索 算法 和 有 限 状态 机 ， 它 们 通 第 不 被 认 
为 是 机 器 学 习 《 记 住 ， 机 器 学 习 主 要 是 使 用 数据 教导 机 器 ， 而 人 工 智 能 
不 一 定 需要 数据 》。 相 反 ， 自 动车 驶 汽车 中 使 用 的 机 器 学 习 大 部 分 都 位 
于 它们 的 感知 和 环境 建 模 层 中 。 


























目 动 驾驶 汽车 重要 的 感知 任务 之 一 是 对 传感器 看 到 的 物体 进行 分 
类 。Boss 并 没有 试图 将 看 到 的 物体 划分 为 精细 的 类 别 ， 它 所 在 的 城市 环 
境 是 人 造 的 ， 因 此 环境 中 唯一 的 移动 物体 是 汽车 。 而 在 野外 ， 目 动 萄 驶 
汽车 会 遇 到 许多 不 同类 型 的 物体 ， 因 此 它 必 须 将 这 些 物体 分 为 不 同 的 类 
别 ， 才 能 做 出 适当 的 反应 。 通 过 了 解 物体 是 汽车 、 目 行车 、 行 人 ， 还 是 
坐 在 电动 轮 森 上 追赶 鸭子 的 妇女 ， 汽 车 可 以 更 好 地 对 其 进行 建 模 并 预测 
路 径 。 











目 动 芍 驶 汽车 如 何 对 它 的 传 感 吉 看 到 的 物体 进行 分 类 ? 有 一 类 机 器 
视觉 算法 在 2012 年 前 后 出 现 了 显著 的 进步 。 这 类 算法 来 自 一 个 叫 深度 学 
习 的 领域 ， 它 可 以 使 计算 机 像 人 类 一 样 精确 地 对 照片 内 容 进 行 分 类 。 在 
接 下 来 的 几 年 里 ， 这 些 算法 迅速 友 展 ， 最 终 ， 英 伟 达 等 公司 开发 出 了 用 
于 目 动 要 驶 汽车 视 党 系统 的 定制 硬件 。 在 本 书后 面 的 章节 ， 我 们 将 更 深 
入 地 研究 这 些 算法 的 工作 原理 。 








Aa BIA: 复杂 的 系统 





对 建造 一 辆 自动 驾驶 汽车 而 言 ， 还 有 很 多 我 们 未 涉及 的 主题 。 下 面 
就 让 我 们 简要 了 解 一 下 其 中 的 一 小 部 分 。 


在 众多 事项 中 ， 开 发 团队 必须 为 目 动 要 驶 汽车 编写 大 量 的 软件 。 纺 
写 这 种 软件 需要 大 量 的 人 力 投 入 。 以 往 获 奖 团队 的 规模 都 很 大 ， 有 
40~60 人 ， 其 中 包括 研究 人 员 、 工 程 师 和 大 学 生 。 这 种 大 规模 的 工作 需 
要 仔细 管理 人 们 和 各 方 之 间 的 合作 ， 以 确保 贡献 者 心情 愉快 且 语 有 成 
效 。 但 是 ， 即 使 快乐 高 效 的 员工 也 会 写 出 有 缺陷 的 代码 。 











正如 我 们 所 见 ， 处 理 软件 缺陷 的 一 种 方法 是 使 用 适当 的 错误 恢复 系 
统 。 无 人 车 挑 成 赛 中 的 成 功 团 队 也 投入 了 大 量 精力 进行 此 类 测试 和 模 
拟 。《 连 线 》 林 志 的 一 位 记者 看 到 砚 里 斯: 尼 姆 森 展 示 了 一 个 很 像 “ 奎 谷 
特 龙 山区 景观 ?的 可 视 化 效 朱 。 它 详细 到 足以 模拟 目 动 要 驶 汽车 如 何 应 
付 道路 ， 甚 至 能 模拟 它 的 轮胎 震动 。 三 特别 是 在 后 来 的 几 年 里 ， 这 些 团 
队 开 及 了 模拟 环境 ， 这 让 他 们 可 以 重 放 过 去 的 轨 驶 记录 ， 以 便 改 进 学 习 
算法 ， 提 高 处 理 异 常 状 况 的 能 力 。 三 仅 这 个 主题 就 足以 写 一 本 书 ， 但 我 
们 还 有 其 他 主题 要 探讨 。 
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目 动 驾驶 汽车 的 轨迹 


20 世 纪 90 年 代 ， 自 动 要 驶 汽车 在 经 历 了 近 10 年 的 赛 冬 之 后 ， 
DARPA 无 人 车 挑战 赛 重新 点 燃 了 这 个 领域 。 虽 然 自动 轨 驶 汽车 在 这 些 
比赛 中 取得 了 进步 ， 但 由 于 技术 和 法 律 方面 的 挑战 ， 这 些 汽车 要 在 没有 
人 类 区 驶 员 的 情况 下 在 公共 道路 上 行驶 还 需要 很 多 年 。 三 在 城市 挑战 赛 
举办 10 年 之 后 ， 处 理 意 外 情况 的 能 力 仍 然 是 这 些 汽 车 面临 的 最 大 问题 之 
一 。 截 至 2017 年 ， 优 步 (Uber) 仍 在 努力 解决 这 个 问题 。 他 们 用 于 实验 
的 目 动车 驶 汽车 始终 需要 人 类 驾驶 员 在 车 内 ， 汽 车 平均 只 能 行驶 0.8 英 
里 就 需要 人 类 驾驶 员 干 预 。"Alphabet 公 司 旗 下 的 自动 驾驶 汽车 公司 韦 
5t CWaymo) 的 产品 在 路 上 行驶 的 里 程 远 远 超 过 优 步 ， 它 当时 每 行驶 
1000 瑞 里 只 有 0.2 瑞 里 需要 人 类 癌 驶 员 干 预 。 二 除 此 之 外 ， 这 些 汽 车 背 
后 的 团队 必须 建立 并 维护 高 度 详细 的 地 网 。 三 











在 比赛 结束 后 的 几 年 里 ，DARPA 无 人 车 挑战 赛 的 许多 竞争 对 手 最 
终 开始 合作 制造 自动 驾驶 汽车 。Alphabet 公 司 旗下 自动 驾驶 汽车 项 目的 
PRAZE HE HERA a SCR JOUR. Asa PTCA 
创造 者 安德鲁 . 莱 万 多 夫 斯 基 (Andrew Levandowski) 以 及 该 领域 的 其 他 
佼佼 者 。 死 里 斯 本 人 最 终 在 2013 年 成 为 Alphabet 公 司 目 动 驾 驶 汽车 项 目 
负责 人 。 三 这 个 项 目 或 许 是 因为 2004 年 DARPA 精 心 组 织 的 挑战 赛 而 启 
动 的 ， 到 克 里 斯 2016 年 离开 时 ， 其 目 动 驾驶 汽车 已 经 在 路 上 行驶 了 超过 
1207 CHE, E 

















1. Joshua Davis,“Say Hello to 
Stanley,"Wired,January1,2006,accessedOctober30,2016,https://www.wired.com/2006/01/stanley. 


2. Taylor Hatmaker,“Leaked Internal Uber Documents Show Rocky SelfDriving Car 
Progress,"TechCrunch,March17,2017. 


3. Johana Bhuiyan,"Self-Driving Cars Are Mostly Getting Better at Navigating California's 


Public Roads,"Recode,February2,2017. 


Timothy B.Lee, "Why Google and Car Companies Are About to Spend Billions Mapping 
American Roads," Vox,September29,2008. 


Heather Kelly,“Google Loses Lead  Self-Driving Car Engineer Chris 
Urmson,"CNN,August5,2016. 


Chris Urmson,The View from the Front Seat of the Google Self-Driving Car:A New 
Chapter,”August5,2016,accessed June16,2017,https://medium.com/@chris_urmson/the-view- 
from-the-front-seat-of-the-google-self-drivingcar-a-new-chapter-7060e89cb65f#.9kwb5jsdr. 


5 M RETE SI SERE 


那些 研究 如 何 预 测 建 模 的 人 们 会 关注 网 飞 奖 (Netflix Prize) 很 
多 年 。 


克 里 斯 沃 林 斯 基 (Chris Volinsky) 
AT&T 〈 美 国电 话 电 报 公 司 ) 实验 室 资 深 科学 家 
“贝尔 科 ” (BellKor) APRA 


1. Steve Lohr,"Netflix Competitors Learn the Power of Teamwork,"New York 
Times, July27,2009. 


百 万 美元 大 奖 


2006 年 ， 当 机 右 人 团队 正 忙于 为 来 年 的 DARPA 城 市 挑战 者 准备 圳 
车 时 ， 网 飞 同 新 兴 的 数据 科学 界 公布 了 他 们 自己 的 大 奖 。 他 们 希望 寻找 
可 以 创建 电影 推荐 引擎 的 团队 ， 愿 意 奖励 最 优秀 的 团队 100 万 美元 奖 


金 。 


当 网 飞 发 布 公告 时 ， 他 们 的 流 媒 体 视 频 业 务 还 不 存在 ， 公 司 的 业务 
是 提供 DVD 〔〈 数 字 通 用 光盘 ) 租赁 服务 。 三 用 户 可 以 向 网 飞 索取 
DVD， 网 飞 会 把 DVD 邮寄 给 他 们 。 但 消费 者 需要 放弃 一 张 当 前 持 有 的 
DVD 才能 收 到 下 一 张 ， 而 且 新 DVD 可 能 需要 几 天 才能 收 到 。 粳 糕 的 选 
择 可 能 会 让 人 错过 观 影 的 黄金 时 间 ， 因 此 用 户 往往 谨慎 地 提出 他 们 的 索 
取 请 求 。 这 就 是 网 飞 想 要 电影 推荐 引擎 的 原因 。 








作为 服务 的 一 部 分 ， 网 飞 允 许 他 们 的 用 户 使 用 1 星 〈( 最 差 ) 到 5 星 
(最 佳 ) 的 整数 等 级 对 电影 进行 评分 。 网 飞 希 望 利用 这 些 评分 帮助 用 户 
决定 他 们 应 该 租 哪 部 电影 。 宣 布 比赛 后 ， 网 飞 回 研究 团体 公布 了 一 个 数 


据 集 ， 其 中 包含 了 他 们 在 1998 一 2005 年 搜集 的 1 亿 个 星 级 评分 。 三 第 一 
个 创造 出 比 网 飞 自 己 的 算法 推荐 效率 高 10% 的 算法 团队 将 获得 大 奖 。 三 





这 个 数据 集 对 全 职 的 和 业余 的 数据 科学 家 而 言 是 天 赐 之 物 ， 他 们 兴 
BAN HE FRIST H 三 在 第 一 周 中 ， 一 些 团队 吏 以 1% 的 优势 
击败 了 网 飞 自 己 的 推荐 引擎 。 三 在 第 一 年 内 ， 有 20000 文 队伍 报名 参 
赛 ， 其 中 有 约 2000 文 队伍 提交 了 参赛 作品 。 三 


1. 在 网 飞 宣布 网 飞 奖 一 年 后 ， 公 司 的 流 媒体 服务 启动 了 ， 这 改变 了 他 们 对 奖项 的 计 
划 。 
2; 为 了 保护 用 户 的 身份 ， 这 些 评 分 是 匿名 的 ， 但 是 这 在 后 来 的 比赛 中 引起 了 争议 。 请 
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December10,2017,https://www.netflixprize.com/assets/GrandPrize2009_BPC_BigChaos.pdf. 
; 官方 称 ， 规 则 规定 ， 一 旦 某 个 团队 把 网 飞 算法 的 推荐 效率 提高 了 10%， 网 飞 就 会 发 

出 “最 后 通 虑 ”"。 在 “最 后 通 典 ”发 出 后 的 30 天 内 提交 的 最 佳作 品 将 启 得 奖项 ， 如 果 出 现 平 局 
则 按照 提交 日 期 的 先后 排名 。 

当时 , “数据 科学 家 ”一 词 还 没有 被 广泛 使 用 。 参 赛 者 来 自 各 个 领域 《其 中 一 个 领域 是 

协同 过 滤 推 荐 系统 ) 。 


Mung Chiang and Christopher Brinton, "Movie Recommendation on Netflix"(lecture from 
































Networks  Illustrated:Principles without Calculus),Coursera,Princeton University,accessed 
March2,2017,https://www.coursera.org/learn/networks-illustrated/lecture/Mx4ze/netflix-prize- 


the-competition. 


James Bennett and Stan Lanning,“The Netflix Prize,"Proceedings of the KDD Cup and 
Workshop,San Jose, CA, August12,2007. 


LAE 


网 飞 奖 的 竞争 者 民 基 不 齐 ， 但 一 个 三 人 小 组 在 排行 榜 上 保持 着 强势 
地 位 。 这 个 团队 就 是 “贝尔 科 ””， 它 由 AT&T 实 验 室 的 三 位 研究 科学 家 
《其 中 一 位 在 竞赛 过 程 中 跳槽 到 了 雅虎 ) 组 成 ， 他 们 在 网 络 和 推荐 系统 
领域 的 专业 知识 使 他 们 有 具备 了 研究 这 个 项 目的 优秀 技能 。 三 另 一 个 团 
队 “ML@UToronto” 由 来 目 多 伦 多 大 学 的 一 群 着 名 的 神经 网 络 研究 人 员 
组 成 。 三 成 员 包 括 一 位 被 广泛 认为 是 神经 网 络 之 父 的 杰 弗 里 : 泣 顿 
(Geoffrey Hinton) 。 


并 非 所 有 参赛 者 都 拥有 博士 学 位 。 其 中 一 个 看 似 实力 较 弱 的 团队 中 
只 有 三 名 本 科 生 ， 他 们 是 来 和 目 普林斯顿 大 学 的 两 名 计算 机 科学 专业 的 学 
生 和 他 们 的 一 名 数学 专业 的 室友 。 这 两 名 计算 机 科学 专业 的 学 生 很 快 就 
开始 攻读 项 尖 的 博士 课程 ， 学 习 机 器 学 习 领 域 的 知识 ， 虽 然 其 中 一 名 学 
生 将 会 留 在 普林斯顿 大 学 心理 学 系 工作 一 年 。 那 名 数学 专业 的 学 生 当时 
正 准 备 去 摩根 大 通 从 事 利 率 衍 生 品 交 易 工作 。 这 个 超出 预期 的 青年 三 人 
组 以 他 们 的 数据 集中 列 出 的 第 一 部 电影 《 忍 龙 星球 》 命 名 他 们 的 团队 。 
三 从 精神 上 讲 ， 他 们 和 几 名 匈牙利 研究 生 很 类 似 ， 后 者 把 他 们 的 团队 命 
名 为 “地 心 引力 ”。 





比赛 中 甚至 还 有 一 些 资 历 更 浅 的 选手 。 最 终 ， 一 个 名 为 “实用 主义 
理论 ”的 二 人 团队 出 现 了 。 这 个 法 裔 加 拿 大 二 人 组 一 直 用 业余 时 间 做 这 
个 项 目 。 其 中 一 人 在 他 家 的 厨房 里 工作 ， 从 晚上 9 点 一 直到 午夜 ， 那 时 
他 的 孩子 们 都 在 睡觉 。 由 于 在 协同 过 滤 领 域 疫 有 任何 经 验 ， 他 们 都 很 谱 
虚 ， 目 称 是 “两 个 曼 无 头绪 的 家 伙 ”。 











参赛 选手 的 人 数 还 在 增加 ， 成 和 干 上 万 ， 其 中 包括 来 自 看 似 完 全 不 同 
领域 (比如 心理 学 ) 的 人 。 虽 然 这 些 团队 在 相互 竞争 ， 但 他 们 会 发 现 自 





己 在 竞争 中 相互 合作 。 事 实 上 ， 正 如 我 们 将 看 到 的 ， 一 个 不 愿意 向 其 他 
团队 学 习 并 与 之 合作 的 团队 想 在 苋 搜 中 取得 成 功 儿 乎 是 不 可 能 的 。 在 接 
下 来 的 两 章 中 ， 我 们 将 奶 中 其 中 几 个 团队 的 百 万 美元 燃 金 探索 之 旅 。 


1. 











贝尔 科 (BellKor〉 这 个 名 字 是 他 们 三 人 的 名 字 贝 尔 (Bel) MEHE (Koren) 的 组 
合 ; 也 是 对 公司 名 BellCore (Bell Communications Research) 玩 的 一 个 文字 游戏 。Yehuda 
Koren and Robert Bell,“Advances in Collaborative Filtering,”in Recommender Systems 


Handbook,ed.F.Ricci,L.Rokach,B.Shapira,and P.B.Kantor(New York:Springer US,2011),145— 
186. 
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B.T.,“Underdogs”;Lester Mackey,Dinosaur Planet—Netflix Prize Team,2007,accessed 
April8,2017,https://web.stanford.edu/~lmackey/dinosaurplanet.html. 


如 何 训练 分 类 器 


N 








你 可 能 想 知 道 为 什么 我 在 这 本 书 里 加 入 有 关 电 影 推 荐 的 章节 。 电 影 
推荐 引擎 真 的 是 人 工 智 能 的 重大 突破 吗 ? 


S 
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古 俩 好 让 我 们 成 为 人 类 。 正 如 我 们 将 在 本 章 中 看 到 的 ， 推 荐 引擎 可 以 很 
好 地 模拟 人 类 的 偏好 ， 甚 至 可 以 在 立法 投票 这 一 最 重要 的 工作 中 与 立法 
者 抗争 。 如 果 有 人 说 ， 推 荐 引擎 对 我 们 经 济 的 影响 已 经 远 远 超过 了 上 自动 
要 驶 汽车 和 国际 象棋 程序 ， 这 肯定 不 是 虚 言 ， 因 为 它们 正在 为 在 线 商务 
提供 动力 。 


我 把 网 飞 奖 写 入 这 本 书 还 有 一 个 更 重要 的 原因 。 比 赛 中 发 生 的 一 些 
事情 ， 包 括 选手 们 如 何 解 决 这些 问 题 以 及 使 用 了 什么 工具 ， 将 直接 影响 
我 们 如 何 看 待 这 本 书 中 的 其 他 突破 。 正 如 我 们 将 要 看 到 的 ， 这 场 比赛 中 
涌现 的 诸多 想法 几乎 触及 我 们 稍 后 将 看 到 的 每 一 个 主题 。 

















本 着 这 一 思路 ， 让 我 们 回顾 一 下 前 几 半 讨论 过 的 斯 坦 福 大 学 的 目 动 
驾驶 汽车 斯 坦 利 的 一 个 构件 。 斯 坦 利 在 很 大 程度 上 依赖 于 机 器 学 习 ， 机 
恬 学 习 使 它 能 够 在 路 上 行驶 ， 并 能 够 感知 周围 的 环境 。 正 如 我 们 所 见 ， 
徐 巴 斯 带 安 : 特 龙 和 他 的 团队 驾驶 着 斯 坦 利 四 处 转悠 ， 同 时 它 的 传感器 
从 周围 环境 收集 数据 。 然 后 ， 他 们 使 用 这 些 数据 训练 分 类 避 ， 以 此 检测 
不 同类 型 的 路 面 是 人 否 适 合 汽 车 安全 行驶 。 我 们 忽略 了 斯 坦 利 检测 可 行驶 
路 面 时 使 用 的 分 类 占 工 作 原理 中 的 一 些 细节 ， 但 是 如 果 我 们 要 了 解 电 影 
推荐 引擎 以 及 我 们 将 在 后 面 的 章节 中 看 到 的 神经 网 络 的 工作 原理 ， 那 么 
了 解 分 类 圳 的 工作 原理 很 重要 。 这 些 分 类 器 的 工作 原理 和 物理 齿轮 或 杠 





杆 一 样 简单 ， 只 是 它们 不 是 把 能 量 转 化 成 有 用 的 结果 ， 而 是 把 数据 转化 
成 有 用 的 结果 。 现 在 ， 我 们 来 回顾 一 下 这 些 细节 。 


试想 ， 你 正在 编辑 一 本 名 为 《世界 最 佳 儿 童 食谱 》 的 尽 饪 书 。 你 打 
Fe eM HW) (Betty Crocker) 网 站 上 的 食谱 ， 把 合适 的 食谱 编 入 这 
本 书 中 。 对 于 每 个 食谱 ， 你 都 有 一 个 简单 的 决定 要 做 : 应 不 应 该 把 它 编 
AZERE? 








回答 这 个 问题 的 一 种 方法 是 ， 准 备 好 你 在 网 站 上 找到 的 每 一 个 食 
谱 ， 把 它们 做 成 食物 给 你 的 孩子 品尝 ， 然 后 询问 孩子 的 意见 。 但 是 如 果 
这 个 网 站 上 有 15000 个 食谱 ， 那 么 即使 每 天 尝试 9 个 新 食谱 并 留 下 记录 ， 
你 也 要 训 饪 4 年 多 。 如 果 不 投 入 大 量 的 时 间 和 精力 ， 你 怎么 能 确定 哪些 
食谱 适合 孩子 ? 





学 习 过 机 器 学 习 的 人 会 迫不及待 地 告诉 你 如 何 解决 这 个 问题 : 你 可 
以 训练 一 个 分 类 需 ! 在 机 器 学 习 领 域 ， 分 类 器 提供 了 一 种 方法 来 自动 判 
断 项 目 〈( 比 如 食 详 〉 是 否 属于 茶 个 类 别 ， 例 如 “适合 孩子 的 食谱 ”， 与 之 
相对 的 便 是 “不 适合 孩子 的 食谱 ”。 


要 使 用 分 类 器 完成 这 项 任务 ， 你 首先 圾 要 确定 食 详 中 有 哪些 特点 可 
以 区 分 它 是 否 适 合 孩 子 。 此 时 ， 你 可 以 友 挥 创造 力 和 判断 力 ， 但 有 些 特 
点 可 能 特别 有 助 于 做 这 种 区 分 。 贝 带 妙 厨 网 站 上 的 用 户 可 以 提供 食谱 的 
星 级 评分 ， 这 些 评 分 可 能 与 孩子 是 人 否 喜 欢 它 们 有 关 ， 因 此 你 可 以 将 这 些 
评分 作为 区 分 特点 之 一 。 你 还 希望 选择 易于 训 饪 且 易 于 理解 的 食谱 ， 例 
如 ， 食 谱 仅 需 少数 几 个 步 又 或 仅 需 少数 几 种 食材 。 你 可 能 还 想 考 虑 糖 的 
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在 机 器 学 习 中 ， 我 们 把 这 些 用 于 区 分 的 特点 称 为 特征 。 当 我 们 把 这 
些 特征 组 合成 描述 食谱 好 坏 的 食谱 评分 时 ， 神 奇 的 事情 就 发 生 了 。 组 合 
它们 的 最 简单 的 方法 是 采用 加 权 平 均值 ， 你 可 以 假设 本 书 中 的 其 他 分 类 
器 也 是 用 这 种 方法 组 合 特征 的 ， 我 们 使 用 权重 来 总 结 每 个 特征 在 了 最 终 得 





分 中 的 重要 性 。 请 你 花 一 点 时 间 看 看 我 把 它 应 用 到 图 5.1 所 示 的 食谱 “ 假 
日 韦 雪糕 布 本 "的 方式 。 3 












































食谱 “假日 烛 雪 糕 布 丁 ” 的 细节 特征 权重 

糖 的 区 数 66 X l 66 

蔬菜 的 克 数 x -2 p 0 

ri p i I A ie) Bt 3 x -10 -30 
食谱 的 步 又 数 6 x 3 1. 相 乘 -18 

星 级 评分 的 平均 分 5 x 10 50 

食材 数量 14 x m -28 
2. 相 加 t 

食谱 评分 | 40 








[5.1 i8::462 X 8 RH ARE MAM SAT” P, ANTAA BC d iE 
孩子 。 权 重 是 固定 的 ， 每 个 食谱 的 细节 〈 以 及 食谱 的 得 分 ) BAEK. RARE 
糕 布丁 ”的 详细 信息 来 自 贝蒂 妙 司 网 站 





为 什么 要 用 加 权 平 均值 来 组 合 这 些 特征 ?这 可 能 看 起 来 很 武断 ， 你 
或 许 已 经 正确 地 猜 到 ， 机 器 学 习 研 究 人 员 已 经 找到 了 上 百 万 种 将 这 些 特 
征 组 合成 分 数 的 方法 。 但 这 种 方法 简单 直接 ， 易 于 推理 。 到 目前 为 止 ， 
它 是 构建 本 书 中 所 有 自动 机 的 最 重要 的 “统计 工具 ”。 请 记 住 ， 这 只 是 一 
个 构件 。 我 们 和 希望 它 很 简单 ， 因 为 我 们 要 把 它 与 其 他 构件 组 合 起 来 ， 而 
且 我 们 希望 能 够 理解 我 们 构建 的 东西 。 








想 要 从 加 权 平 均值 中 得 到 一 个 分 类 器 ， 我 们 只 需 选择 一 个 国 值 ， 例 
如 我 们 将 阐 值 设 为 “0”"， 将 高 于 该 闹 值 的 所 有 食谱 部 称 为 好 食谱 ， 而 将 
低 于 该 闵 值 的 称 为 坏 食 谱 。 根 据 图 5.1 中 的 分 类 器 ，“ 假 日 炮 雪 糕 布丁” 是 
WME aa JLB INR, RECA RRR, BEZH H 
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如 采 你 使 用 机 器 学 习 来 构建 分 类 器 ， 就 需要 使 用 数据 计算 每 个 特征 


KWARE, FFARR. KA KS ES HERS, Frida 
每 个 食谱 的 喜爱 程度 ， 以 此 搜集 这 些 数 据 。 然 后 ， 你 可 以 用 统计 学 中 的 
标准 公式 ， 根 据 这 些 数据 估算 权重 。 你 可 能 在 高 中 时 看 到 过 这 个 公式 
(并 且 很 快 就 瑟 记 了 〉， 你 学 会 了 在 一 张 纸 上 用 一 些 点 (x，y) 拟 合 最 
佳 直线 。 这 里 使 用 的 是 相同 的 公式 ， 只 是 每 个 y 和 坐标 都 对 应 多 个 x 坐标 。 








一 旦 你 用 少数 几 个 食谱 (比方 说 ，100 个 食谱 而 不 是 15000 个 食谱 》 
来 拟 合 这 个 分 类 器 的 权重 ， 就 可 以 让 计算 机 运行 这 个 分 类 器 ， 以 此 预测 
剩 下 的 14900 个 食 说 是 好 是 坏 。 根 据 这 个 分 类 器 ， 你 可 以 从 15000 个 食谱 
中 挑选 出 200 个 最 好 的 食谱 ， 然 后 党 试 一 下 ， 确 认 它 们 确实 不 错 ， 保 留 
最 好 的 ， 这 时 便 大 功 告 成 了 。 


现在 ， 有 了 构建 分 类 器 的 技巧 ， 让 我 们 回 到 网 飞 奖 ， 看 看 我 们 如 何 
使 用 分 类 器 推荐 电影 。 


1. ”Holiday Baked Alaska,”Betty Crocker website,accessed 
March8,2017,http://www.bettycrocker.com/recipes/holiday-baked-alaska/c936a634-e9d54acc- 
ae6d-0127fc8d1371. 


比赛 的 目标 





网 飞 应 该 使 用 什么 标准 同 观 众 推 荐 电影 ? 推荐 电影 的 目标 应 该 是 什 
AE? 2008, WR- ÉA (Clive Thompson) ÆN (AAMT) BE 
写 的 一 篇 文章 中 探讨 了 这 些 问 题 ， 当 时 比赛 正在 进行 中 。 三 他 问 道 ， 网 
飞 的 电影 推荐 服务 是 否 应 该 时 在 保守 地 向 你 推荐 你 很 可 能 喜欢 的 电影 ， 
即使 这 部 电影 不 会 让 你 离开 舒适 区 ? 或 者 推荐 服务 是 否 应 该 扮演 上 古怪 的 
音像 店 店员 的 角色 ， 一 边 向 你 推荐 你 绝对 喜欢 的 电影 ， 一 边 冒 险 推 荐 一 


部 你 可 能 会 认为 无 聊 的 电影 ? 一 

















在 当时 的 传统 音像 店 中 ， 新 电影 和 流行 电影 占 了 租赁 的 大 部 分 ， 传 
统 音 像 店 可 以 依靠 这 些 有 限 的 选择 更 容易 地 推荐 电影 。 网 飞 与 众 不 同 ， 
其 70% 的 租赁 都 来 自 不 相关 的 或 古老 的 “ 压 箱底 ”电影 。 面 对 如 此 庞大 的 
电影 数量 ， 加 上 每 次 租赁 之 间 都 有 很 长 时 间 的 延迟 ， 网 飞 依 靠 自 己 的 电 
影 推荐 系统 Cinematch 〈 电 影 匹配 ) 来 癌 用 户 推荐 电影 。 增 加 Cinematch 
对 公司 的 利润 至 关 重 要 ， 因 为 他 们 有 可 能 失去 那些 极 少 看 网 飞 电影 或 者 
不 喜欢 等 几 天 才能 看 到 电影 的 用 户 ， 这 些 观 众 最 有 可 能 取消 订阅 。 三 








因此 ， 网 飞 的 工程 师 不 断 改 进 他 们 的 Cinematch 推 荐 算法 。 当 他 们 
再 无 力 改善 时 ， 便 决定 举办 网 飞 奖 ， 奖 励 第 一 文 推 荐 效率 超过 网 飞 算法 
10% 的 团队 100 万 美元 奖金 。 正 如 网 飞 首席 执行 官 里 德 : 黑 斯 廷 斯 (Reed 
Hastings) 所 指出 的 ， 对 他 们 而 言 ， 文 付 巨 额 奖 金 并 不 算 真正 的 风险 ， 
获得 更 好 的 电影 推荐 所 带 来 的 经 济 利益 可 能 远 远 超过 奖金 的 成 本 。" 三 即 
使 他 们 的 推荐 系统 只 有 微小 的 改进 ， 也 可 能 带 来 总 体 上 的 大 胜利 ， 因 为 
在 网 飞 每 天 的 数 亿 个 推荐 中 ， 这 一 数字 是 成 倍增 长 的 。 .三 如 果 所 有 参赛 
队 都 没 达 到 10% 的 目标 ， 网 飞 也 会 颁发 进步 奖 。 如 果 参 赛 队 每 年 都 能 
得 足够 大 的 进步 ， 最 好 的 队伍 将 获得 5 万 美元 的 奖励 。 网 飞 只 附加 了 一 











个 条 件 : IER s ERA E TRO RETE SS BJ ARS e 


网 飞 为 参赛 者 提供 了 一 个 客观 明确 的 目标 ， 从 而 简化 了 任务 。 参 赛 
者 需要 预测 特定 用 户 在 特定 日 期 为 特定 电影 打出 的 星 级 评分 。 网 飞 通 过 
计算 参赛 者 预测 的 评分 与 用 户 在 一 个 秘密 数据 集 〈 人 参赛 者 永远 不 会 看 
到 ) 上 给 出 的 实际 评分 之 间 的 平均 方差 来 评估 每 个 团队 的 表现 。 三 














每 当 一 个 团队 提交 预测 结果 ， 网 飞 就 会 在 秘密 数据 集 上 评估 团队 的 
表现 ， 并 在 公共 排行 榜 上 更 新 他 们 的 分 数 ， 其 他 团队 和 记者 都 会 密切 天 
注 他 们 的 分 数 。 三 从 技术 上 讲 ， 一 个 团队 仍然 可 以 通过 提交 大 量 的 预测 
来 “ 偷 筑 ”这 个 数据 集中 的 电影 评分 ， 但 网 飞 非常 聪明 ， 他 们 把 为 一 个 水 
远 不 会 透露 给 参赛 者 的 秘密 数据 集 藏 了 起 来 。 这 个 双重 保密 的 数据 集 只 
会 在 比赛 结束 时 用 于 评估 最 优秀 的 候选 人 。 


1. Clive Thompson,“If You Liked This, You're Sure to Love That,’ New York Times 
Magazine,November21,2008. 


2. Clive Thompson,“If You Liked This, You're Sure to Love That,’ New York Times 
Magazine,November21,2008. 


3. Clive Thompson,“If You Liked This, You're Sure to Love That,’ New York Times 
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Magazine, November21,2008. 


5. Jordan Ellenberg,“This Psychologist Might Outsmart the Math Brains Competing for the 
Netflix Prize,"Wired,February25,2008. 


6. 平均 方 着 有 很 多 优点 。 除 此 之 外 ， 它 能 确保 差异 是 非 负 数 。 它 是 一 个 易于 理解 的 度 
量 标准 ， 有 共有 很 好 的 统计 特性 。 


7. B.T.,“Underdogs.” 


























BEX WI YEA) AREE 


鉴于 网 飞 奖 专注 于 用 户 的 电影 评分 ， 所 以 把 问题 当 作 一 个 庞大 的 评 
分 矩阵 来 思考 是 有 帮助 的 。 我 在 图 5.2 中 展示 了 这 个 矩阵 中 的 一 个 小 样 
本 (数据 纯 属 虚 构 〉。 


这 个 矩阵 非常 庞大 : 它 提供 了 17770 部 电影 和 480189 个 不 同 用 户 的 
评分 。 三 网 飞 提供 了 一 些 用 户 对 某 些 电影 的 评分 ， 并 要 求 参赛 者 预测 一 
些 缺 失 的 评分 〈 抢 阵 中 的 问号 )》。 尽 管 矩阵 规模 庞大 ， 但 只 有 19% 的 矩 
阵 方 格 里 有 数字 。 不 用 说 ， 大 多 数 网 飞 用 户 都 只 给 少数 电影 打 过 分 。 





那么 参赛 者 应 该 从 何 下 手 呢 ? 


《终结 者 2》 
《奇异 小 子 》 
《 独 领 风骚 》 
《大 人 物 拿 破 仑 》 
《 潘 神 的 迷宫 》 



































《 魔 发 》 

《X 战 警 》 
《剪刀 手 爱德华 》 
《霹雳 五 号 》 


《玩具 总 动员 》 



































图 5.2 网 飞 用 户 为 各 部 电影 打出 的 星 级 评分 示例 。 网 飞 在 矩阵 中 提供 了 一 些 评分 
〈 用 数字 表示 ) 。 
竞争 者 需要 预测 一 些 缺 失 的 评分 〈 用 问号 表示 ) 


在 比赛 开始 之 初 ， 大 多 数 顶 级 竞争 者 都 采用 非常 相似 的 方法 来 分 析 
这 些 评分 。 由 AT&T 和 雅虎 的 研究 人 员 组 成 的 “贝尔 科 ” 队 的 成 员 指 出 ， 
从 简单 的 基准 模型 开始 解释 评分 矩阵 中 最 基本 的 趋势 是 很 重要 的 。“ 由 
尔 科 ” 队 的 基准 模型 主要 有 两 部 分 。 第 一 部 分 只 适用 于 电影 ， 我 们 可 以 
称 之 为 “E.T. 效 应 ”。 三 下 .工效 应 衡量 一 部 电影 的 受 欢迎 程度 ， 而 不 管 是 
谁 给 它 打分 。 例 如 ， 在 网 飞 的 数据 集中 ， 最 不 受 欢迎 的 电影 是 《吸血 鬼 
B ABIZENE) (AviaVampire Hunter) ， 这 是 一 部 低 成 本 的 电影 ， 讲 述 
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网 飞 上 有 132 个 评分 ， 平 均 分 只 有 1.5 星 (满分 5 星 ) . ME HX EUG PA 
关于 这 部 电影 的 评论 ， 其 中 一 条 评论 说 : 











我 看 了 这 部 垃圾 电影 ， 应 该 得 到 报酬 的 。 这 是 在 别人 家 后 院 用 手持 
摄像 机 拍 的 。 别 看 了 。 如 果 这 能 叫 电 影 的 话 ， 那 它 就 是 我 看 过 的 最 糟糕 
的 电影 ! 如 果 我 事先 知道 的 话 ， 和 白 送 我 也 不 看 。 


在 另 一 个 极端 ， 最 受 欢 迎 的 电影 是 奇 约 片 《指环 王 3: 王者 无 敌 》 
CLord of the Rings:The Return of the King) 的 加 长 版 ， 在 网 飞 的 数据 集 
中 ， 这 部 电影 有 73000 个 评分 ， 平 均 分 为 4.7 星 ， 分 数 相当 高 。 它 在 亚 马 
进 上 得 到 了 压倒 性 的 好 评 ， 以 下 是 亚 马 进 上 对 这 部 电影 的 一 条 评论 : 








KET! 如 果 你 从 未 看 过 《指环 王 》 三 部 曲 ， 那 么 我 强烈 推荐 ! A 
是 优秀 的 三 部 曲 。 我 特别 喜欢 加 长 版 ，……: 








虽然 这 条 评论 说 的 更 多 的 是 关于 三 部 曲 而 不 是 单 部 电影 ， 但 显然 观 
关 豆 欢 它 。 而 在 亚 马 进 上 对 这 部 电影 的 负面 评论 ， 更 多 的 是 关于 视频 的 
格式 或 视频 的 卖家 ， 而 非 电影 本 身 的 。 





“贝尔 科 ? 队 的 基准 模型 的 另 一 部 分 ， 我 们 可 以 称 之 为 "音调 鬼 效 
应 ”， 它 骨 在 捕捉 网 飞 用 户 在 给 电影 评分 时 是 乐观 心态 还 是 莫 观 心态 。 
一 些 用 户 给 他 们 评价 的 所 有 电影 都 打 了 1 星 ， 但 大 多 数 人 的 评分 都 介 于 
两 个 极端 之 间 。 这 些 观众 是 否 做 到 客观 评分 并 不 重要 ， 但 这 些 趋 势 是 存 


在 于 数据 中 的 事实 ， 这 意味 看 像 “ 贝 尔 科 ” 队 这 样 的 团队 需要 捕捉 它们 。 








有 了 “贝尔 科 ” 队 概括 的 两 种 效应 一 一 E.T. 效 应 和 音 北 购 效 应 ， 我 们 
便 可 以 拼凑 起 一 个 基本 的 推荐 引擎 。 “贝尔 科 ” 队 将 E.T. 效 应 、 音 音 鬼 效 
应 和 一 个 整体 偏差 项 ( 它 描述 了 所 有 用 户 对 所 有 电影 的 平均 评分 〉 整 合 
到 一 个 单一 模型 中 ， 使 用 的 分 类 器 类 似 于 我 们 为 《世界 最 佳 儿 童 食 详 》 
所 创建 的 分 类 器 。 在 这 个 简单 的 模型 中 ， 分 类 器 学 习 了 每 部 电影 的 权 

















E. BES PA BED RGB. A SRE I SE, “贝尔 科 ? 队 便 可 
以 问 网 飞 用 户 推荐 最 好 的 电影 ， 在 没有 任何 其 他 信息 的 情况 下 ， 这 是 一 
个 不 错 的 开始 。 








这 个 推荐 引擎 的 问题 在 于 ， 它 总 是 同 所 有 用 户 推荐 相同 的 电影 ， 特 
别 是 《指环 王 》 和 其 他 流行 DVD， 比 如 《迷失 》 (Lost) 第 一 季 和 《 辛 
普 森 一 家 》 (The Simpsons) 第 六 季 。 它 无 法 提供 个 性 化 的 推荐 。 如 果 
网 长 使 用 这 种 方式 回 每 个 用 户 推荐 电影 ， 那 么 它 将 永远 无 法 满足 那些 只 
喜欢 非 美 国电 影 、 另 类 电影 或 儿童 电影 的 网 必用 户 。 它 对 每 个 人 而 言 都 
说 得 过 去 ， 但 对 每 个 人 来 说 都 不 完美 。 








事实 上 ， 大 多 数 人 都 无 法 对 这 种 "一刀切 ?” 式 系统 的 服务 感到 满意 。 
美国 空 盏 在 20 世 纪 50 年 代 分 析 不 计 其 数 的 空难 的 原因 时 发 现 了 这 一 点 。 
20 世 纪 20 和 年代， 人们 发 明了 匹配 美国 男性 平均 映 高 的 绝 驶 舱 ， 但 研究 这 
个 问题 的 科学 家 吉尔 伯 特 :丹尼尔 斯 上 尉 (Gilbert Daniels) KE, KB 
数 男 性 的 号 材 并 不 平均 。 正 如 哈佛 大 学 教育 学 教授 托 德 :罗斯 (Todd 
Rose) 在 他 的 书 《 平 均 的 终结 》 (The End of Average) 中 解释 的 那样 : 











在 4063 名 飞行 员 中 ， 没 有 一 名 飞行 员 的 全 部 10 个 尺寸 都 在 平均 范围 
内 。 一 名 飞行 员 的 臂 长 可 能 比 平均 长 度 长 ， 腿 长 却 比 平均 长 度 短 。 另 一 
名 飞行 员 的 胸围 很 大 ， 辟 围 却 很 小 。 更 让 人 吃惊 的 是 ， 丹 尼 尔 斯 发 现 ， 
如 果 你 只 挑选 出 10 个 尺寸 中 的 3 个 ， 比 如 颈 围 、 大 腿 围 和 手腕 围 ， 仍 然 
只 有 不 到 3. 5% 的 飞行 员 的 全 部 3 个 尺寸 都 处 于 平均 范围 内 。 丹 尼 尔 斯 的 
发 现 清 楚 明 白 且 无 可 辩驳 。 没 有 所 谓 的 典型 飞行 员 。 如 果 你 设计 的 驾驶 
舱 适 合 典 型 飞行 员 ， 那 么 实际 上 它 不 适合 任何 人 。 三 





基于 这 些 有 发现， 丹尼尔 斯 建议 调整 驾驶 舱 ， 以 便 为 飞行 员 量 屿 定 
做 ， 空 军 采 纳 了 他 的 建议 。 

通过 放弃 平均 标准 作为 参考 标准 ， 空 军 在 设计 理念 上 实现 了 一 次 飞 
跃 ， 其 核心 是 一 项 新 的 指导 原则 : 个 体 适 应 。 军 队 不 再 让 个 人 适应 体 


WH, MAI EEE 个 人 。 短 时 间 内 ， 空 军 要 求 所 有 的 驾驶 舱 都 要 
适合 不 同体 型 的 飞行 员 ， 只 要 他 们 每 个 尺寸 的 测量 值 都 在 平均 水 平 的 
5% 959536, AA 
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本。 他们 发 明了 可 调式 脚 踏 板 ， 开 发 了 可 调式 头盔 带 和 飞行 服 。 


这 些 以 及 其 他 设计 方案 一 落实 到 位 ， 飞 行 员 的 表现 便 大 幅 提 升 ， 美 
国 空军 成 为 世界 上 最 强大 的 空军 之 一 。 不 久 ， 美 国 军 方 的 每 个 部 门 都 发 
布 了 指导 方针 ， 规 定 装备 必须 适合 各 种 体型 ， 而 不 是 按 平均 水 平 标准 
Au. NE 


我 们 需要 为 网 飞 推荐 引擎 引入 相当 于 可 调式 座 椅 的 东西 ， 以 便 针 对 
每 个 用 户 提供 定制 服务 。 我 们 需要 捕捉 “终结 者 效应 ”。 不 是 所 有 的 网 发 
用 户 都 喜欢 《终结 者 》 这 样 的 科 约 片 和 动作 片 ， 有 些 用 尸 喜 欢 儿 童 电 
影 ， 有 些 用 户 两 者 都 喜欢 ， 而 有 些 用 户 两 者 都 不 喜欢 。 为 了 捕 换 “终结 
者 效应 ?”， 大 多 数 团队 都 采用 了 一 种 叫 和 矩阵 分 解 的 方法 。 


1. Tóscher et al., The BigChaos Solution to the Netflix Grand Prize.” 


à. 埃 德 温 : 陈 (Edwin Chen) 写 了 一 篇 关于 这 些 效应 的 优秀 博客 文章 ， 他 称 之 为 爱丽 丝 
效应 《我 们 所 说 的 音 冀 移 效 应 ) 和 盗 梦 空间 效应 〔 我 们 所 说 的 E.T. 效 应 )。 那 篇 博文 是 
Winning the Netflix Prize:A Summary,accessed 
April21,2017,http://blog.echen.me/author/edwin-chen3.html . 


























3. Todd Rose,“When U.S.Air Force Discovered the Flaw of Averages,”Toronto 
Star, January16,2016,excerpted from The End of Average(New 
York:HarperCollins,2016),accessed 
June16,2017,https://www.thestar.com/news/insight/2016/01/16/when-us-air-force-discovered- 
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矩阵 分 解 依 赖 于 这 样 一 个 事实 ， 即 图 5.2 中 庞大 的 评分 矩阵 里 有 许 
多 宛 余 信息 。 喜 欢 《 飞 出 个 未 来 》 (Futurama) 的 人 倾向 于 喜欢 《 辛 普 
森 一 家 》 ， 喜 欢 《 怪 物 史 莱克 》 (Shrek) 的 人 倾向 于 喜欢 它 的 衍生 剧 
《 穿 靴子 的 猫 》 (Puss in Boots) 。 承 认 这 个 矩阵 中 存在 元 余 信息 ， 这 
并 不 是 一 个 状 狂 的 想法 ， 毕 竞 ， 我 们 能 够 提供 个 性 化 推荐 的 前 提 束 是 假 
定 人 们 的 评分 中 存在 可 预测 的 模式 。 


为 了 了 解 矩 阵 分 解 背后 的 关键 思想 ， 我 们 暂时 假设 可 以 用 几 个 数字 
来 总 结 电影 和 用 户 。 对 每 一 部 电影 而 言 ， 这 些 数 字 可 能 只 是 代表 了 它 可 
能 的 类 型 。 它 是 动作 片 、 喜 剧 片 、 恢 悚 片 ， 还 是 这 些 类 型 的 茶 种 组 合 ? 
我 们 可 以 将 每 部 电影 表示 为 一 个 简短 有 序 的 数字 列表 : “1 表示 符合 茶 
一 类 型 , “0 表示 不 符合 菏 一 类 型 。 




















我 们 也 可 以 用 同样 的 方法 表示 网 飞 用 户 的 偏好 : “1 表示 用 户 喜 欢 
这 种 类 型 ，“-_1” 表 示 用 户 不 喜欢 这 种 类 型 ，“0” 代 表 用 户 不 关心 它 。 如 
果 用 户 非 常 喜欢 或 不 喜欢 某 一 类 型 ， 我 们 就 可 以 使 用 更 具体 的 数字 ， 
如 “1.5” 或 “2.2”?。 暂 时 不 要 担心 我 们 从 哪里 获得 关于 电影 和 用 户 的 信 
尽 。 现 在 ， 我 们 假设 可 以 从 维基 百科 和 互联 网 电影 数据 库 〈IMDb) 等 
公共 资源 中 了 解 一 部 电影 属于 哪 种 类 型 ， 还 可 以 简单 地 通过 调查 来 询问 
人 们 喜欢 哪 种 类 型 的 电影 。 











一 旦 用 这 些 描述 性 数字 描述 数据 库 中 的 每 部 电影 和 每 个 用 户 ， 我 们 
就 可 以 用 它们 预测 某 个 人 是 否 襄 欢 某 部 电影 。 让 我 们 试 着 预测 一 下 导演 
史 带 分 :斯 皮尔 伯 格 是 否 喜欢 《 侏 罗 纪 公 园 》 (JurassicPark) 。 这 部 电 
影 主要 是 科 约 和 冒险 类 型 ， 所 以 我 们 假设 《 侏 罗 纪 公 园 》 的 这 两 种 类 型 
是 “1”， 其 他 类 型 都 是 “0”。 假 设 斯 皮尔 伯 格 非常 喜欢 科幻 片 〈1.2) ， 有 











点 喜欢 冒险 片 和 喜剧 片 (0.610.550 等 ， 不 喜欢 恐怖 片 (-1.2) 等 ， 我 
们 该 如 何 结合 这 些 数 字 预 测 他 是 否 喜欢 《 侏 罗 纪 公园 》? 








一 种 简单 的 方法 是 ， 用 描述 《 侏 罗 纪 公园 》 是 人 否 属于 每 种 类 型 的 数 
字 ， 乘 以 史 带 分 :斯 皮尔 们 格 对 这 些 类 型 的 喜爱 程度 ， 然 后 把 这 些 乘积 
加 起 来 ， 得 到 一 个 描述 他 对 《 侏 罗 纪 公 园 》 喜 爱 程度 的 分 数 〈 见 图 
5.3) 。 我 不 保证 这 是 组 合 这 些 数字 的 最 佳 方式 ， 但 如 果 你 愿意 和 暂时 放 
下 疑虑 ， 可 能 会 同意 这 至少 会 让 我 们 朝 着 正确 的 方 辐 前 进 。 

















《 侏 罗 纪 公园 》 斯 皮尔 伯 格 的 电影 。 斯 皮尔 伯 格 对 《 侏 罗 纪 公园 》 
的 电影 类 型 类 型 喜爱 程度 的 电影 类 型 喜爱 程度 
科幻 o 1 @ 12 1.2 
戏剧 性 | 0 x @ 03 0 
gui O 0 x |O-12| | e 
喜剧 © 0 x Q 0.5 1. FFE 
冒险 @ | x | @ o6 
爱情 O 0 x [ YE 








斯 皮尔 伯 格 对 《 侏 罗 

纪 公园 》 的 喜爱 程度 | 1.8 
图 5. 3 确定 史蒂芬 。 斯 皮尔 伯 格 是 否 会 喜欢 电影 《 侏 罗 纪 公园 》 的 测试 。 在 这 里 ， 
我 们 可 以 假设 《 侏 罗 纪 公园 》 属 于 科幻 和 冒险 两 种 类 型 。 史 蒂 芬 。 斯 皮尔 伯 格 倾向 
于 喜欢 科幻 片 、 喜 剧 片 和 冒险 片 等 ， 而 不 喜欢 恐怖 片 等 ， 正 如 他 对 各 类 电影 的 喜爱 
程度 所 表明 的 那样 。 我 们 将 电影 类 型 的 分 数 (0 或 1) 与 斯 皮尔 伯 格 对 这 些 类 型 的 喜 
爱 程 度 相 乘 ， 然 后 把 结果 相 加 ， 将 其 组 合成 一 个 得 分 。 结 果 是 一 个 相当 高 的 “吸引 

力 ” 分 数 ， 描 述 了 斯 皮尔 伯 格 对 《 侏 罗 纪 公园 》 的 喜爱 程度 





简 而 言 之 ， 这 就 是 矩阵 分 解 。 和 矩阵 分 解 是 我 们 将 要 看 到 的 用 于 个 性 
化 推荐 的 最 重要 的 算法 ， 我 想 让 你 内 化 的 一 种 关键 直觉 是 ， 这 个 算法 假 








设 我 们 已 经 用 几 个 数字 总 结 了 每 部 电影 和 每 个 用 户 ， 就 像 图 5.3 中 展示 
的 那样 。 它 提供 了 一 种 方法 ， 将 这 些 数字 组 合成 一 个 “吸引 力 ” 分 数 ， 来 
描述 每 个 用 户 对 每 部 电影 的 喜爱 程度 。 这 就 是 所 谓 的 矩阵 分 解 ， 因 为 根 
据 数学 原理 ， 它 相当 于 将 图 5.2 中 原始 的 庞大 评分 矩阵 近似 为 两 个 或 更 
多 小 矩阵 〔( 即 它 的 因子 的 乘积 ， 这 些小 矩阵 恰好 编码 了 我 们 用 来 描述 
电影 和 用 户 的 数字 。 三 如 果 将 图 5.3 与 图 5.1 进 行 比较 ， 你 就 会 注意 到 我 
们 在 这 两 者 中 都 创建 了 分 类 器 。 在 图 5.1 中 ， 特 征 是 食谱 ， 权 重 是 孩子 
们 的 偏好 ， 在 图 5.3 中 ， 特 征 是 电影 的 类 型 ， 权 重 是 斯 皮尔 伯 格 的 电影 
偏好 。 这 个 手工 制作 的 分 类 器 让 我 们 能 够 为 斯 皮尔 伯 格 提供 个 性 化 推 
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如 你 所 想 ， 如 果 我 们 从 数据 中 学 习 这 些 权 重 ， 就 可 以 做 得 更 好 。 如 
果 斯 皮尔 伯 格 在 网 飞 上 给 电影 评分 ， 我 们 就 可 以 使 用 这 些 评分 和 他 所 评 
分 的 电影 的 类 型 来 自动 了 解 他 的 电影 俩 好 。 这 和 我 们 训练 分 类 器 ， 为 孩 
子 们 寻找 优秀 食谱 时 所 做 的 完全 一 样 ， 只 是 现在 我 们 是 训练 分 类 器 为 期 
皮尔 们 格 提供 电影 推荐 。 这 个 分 类 器 只 适用 于 斯 皮尔 伯 格 ， 但 是 对 每 个 
网 飞 用 户 重 复 这 个 过 程 非 常 简 单 。 利 用 每 个 用 户 过 去 的 电影 评分 ， 我 们 
可 以 自动 为 他 们 创建 一 个 分 类 器 ， 而 无 须 直 接 询问 他 们 喜欢 哪 种 电影 类 
型 。 








事实 证 明 ， 我 们 可 以 进一步 改进 这 些 预测 。 要 了 解 具体 方法 ， 请 再 
次 看 图 5.3。 请 注意 ，《 侏 罗 纪 公园 》 的 类 型 被 固定 为 “0? 或 “1”。 我 通过 
查看 互联 网 电影 数据 库 来 选择 这 些 数字 ， 但 是 我 们 可 以 通过 从 数据 中 了 
解 电影 的 类 型 来 改进 我 们 的 预测 。 我 们 不 需要 用 “0? 或 “1 来 描述 《 侏 罗 
纪 公 园 》， 转 而 使 用 用 户 对 电影 的 评分 来 表示 它 ， 方 法 和 我 们 用 来 了 解 
斯 皮尔 伯 格 对 不 同类 型 电影 偏好 的 方法 完全 相同 。 




















既然 我 们 已 经 知道 了 每 部 电影 的 类 型 ， 为 什么 还 要 费心 从 数据 中 学 
习 电 影 的 类 型 呢 ? 因为 对 完成 电影 推荐 任务 而 言 ， 我 们 没有 理由 相信 人 
类 选择 的 类 型 标签 是 总 结 电影 的 最 佳 方法 。 固 定 的 类 型 对 描述 电影 而 言 





太 粗 糙 了 。 事 实 上 ， 我 们 有 足够 的 证 据 证 明 电影 类 型 是 不 固定 的 。 像 

《 侏 罗 纪 公园 》 这 样 的 电影 完美 地 说 明了 这 一 点 ，《 侏 罗 纪 公园 》 既 是 
科 纠 片 ， 也 是 冒险 片 ， 但 它 也 有 一 些 喜 剧 元 素 和 人 芍 怖 元 素 。 因 此 ， 对 后 
两 种 类 型 ， 它 至 少 应 该 有 一 点 权重 。 而 且 有 些 类 型 太 粗 糙 ， 喜 剧 电 影 
能 是 枯燥 的 、 滑 重 的 或 淫秽 的 ， 而 每 种 类 型 的 豆 剧 可 能 会 吸引 完全 不 同 
的 观众 。 对 音像 店 店员 和 其 他 人 而 言 ， 电 影 类 型 是 描述 电影 的 一 种 有 用 
的 方式 ， 但 对 于 预测 人 们 对 电影 的 喜爱 程度 ， 它 并 不 是 很 有 用 ， 至 少 与 
我 们 从 数据 中 学 到 类 型 相 比 是 这 样 。 三 如 果 能 忽略 人 们 最 初 使 用 的 电影 
类 型 ， 而 仅仅 使 用 我 们 通过 机 带 学 习 ， 从 评分 矩阵 中 获得 的 人 工 关 型 ， 

我 们 实际 上 可 以 更 好 地 预测 电影 的 评分 。 三 




















实际 上 ， 正 如 “贝尔 科 ” 队 的 克 里 斯 - 沃 林 斯 基 所 指出 的 那样 ， 在 “ 贝 
尔 科 ” 队 的 实验 中 ， 来 自 评 分 算 阵 以 外 的 数据 似乎 都 对 预测 评分 没有 太 
大 用 处 。 他 们 尝试 分 析 了 很 多 东西 ， 例 如 电影 类 型 、 参 演 演员 、 影 片上 
映 日 期 等 ， 但 似乎 都 没有 什么 帮助 。 克 里 斯 的 直觉 是 ， 电 影评 分 的 数据 
集 是 如 此 庞大 、 如 此 丰富 ， 关 于 哪些 人 会 喜欢 东部 电影 的 一 切 你 需要 知 
道 的 信息 ， 它 痢 已 经 告诉 你 了 。 成 干 上 万 个 不 同 的 人 对 一 部 电影 的 评 
分 ， 比 任何 外 部 知识 都 更 能 告诉 你 这 部 电影 的 情况 。 一 部 电影 的 评分 惑 
像 是 它 的 数字 指纹 ， 冠 阵 分 解 为 这 个 指纹 提供 了 简洁 而 优秀 的 总 结 。 





如 采 我 们 在 这 两 个 步骤 之 间 反 复 交 蔡 ， 也 就 是 次 ， 在 保持 用 户 对 固 
定 类 型 喜爱 程度 的 同时 学 习 电 影 类 型 ， 然 后 在 保持 类 型 固定 的 同时 预 判 
用 户 对 这 些 类 型 的 辟 爱 程度 ， 那 么 我 们 的 推 存 会 越 来 越 好 ， 直 到 类 型 最 
终 停 止 变 化 。 到 那 时 ， 我 们 将 会 学 习 到 每 个 用 户 的 一 组 权重 ， 以 及 每 部 
电影 的 另 一 组 权重 ， 我 们 可 以 把 它们 相 乘 并 相 加 ， 为 "用 户 一 一 电影 ? 匹 
配 提 供 丰富 的 个 性 化 推荐 。 这 束 是 大 多 数 数据 科学 家 在 谈 到 和 矩阵 分 解 时 
所 表达 的 意思 ， 这 种 从 数据 中 重新 学 习 类 型 和 对 类 型 受 欢迎 程度 进行 预 
判 的 交 蔡 过 程 就 是 他 们 通常 计算 矩阵 分 解 的 方法 。 




















当 我 们 用 这 种 交 蕉 方法 学 习 这 些 人 工 类 型 的 时 候 ， 它 们 就 会 偏离 人 


们 最 初 使 用 的 电影 类 型 。 到 我 们 完成 的 时 候 ， 它 们 可 能 看 起 来 根本 不 像 
最 初 的 类 型 ， 但 它们 通常 仍然 是 可 以 解释 的 。 


我 刚才 描述 的 这 种 矩阵 分 解 方法 可 能 与 你 在 大 学 课堂 上 听 到 的 矩阵 
分 解 方法 不 一 样 。 通 常 ， 当 研究 人 员 同 其 他 人 谈论 矩阵 分 解 时 ， 他 们 会 
绘制 一 幅 图 ， 图 上 是 各 种 电影 在 评分 矩阵 中 形成 一 个 点 云 。 在 这 个 点 云 
中 ， 评 分 相似 的 电影 彼此 接近 ， 而 评分 相差 很 大 的 电影 往往 相距 甚 远 。 
事实 上 ， 根 据 和 矩阵 创建 这 样 的 点 云 很 容易 ， 尽 管 这 很 难 想象 ， 因 为 每 个 
影 点 都 有 480189 个 坐标 ， 每 一 个 坐标 都 代表 480189 个 用 户 中 的 每 个 人 
对 这 部 电影 的 评分 。 


但 是 ， 就 像 窍 阵 一 样 ， 这 个 云 有 很 多 元 余 信息 。 冠 阵 分 解 把 电影 
的 “高 维 云 ”分解 成 仍然 可 以 捕捉 到 我 们 关心 的 趋势 的 “ 低 维 云 ”， 即 相似 
的 电影 聚 在 一 起 ， 而 不 同 的 电影 往往 役 此 相距 很 远 。 在 新 的 空间 中 ， 每 
一 部 电影 都 可 以 用 6~100 个 数字 来 描述 ， 这 些 数字 正 是 我 们 用 上 面 的 区 
人 蔡 方 法 找到 的 数字 。 


当 研 究 人 员 处 理 任意 可 以 被 放 入 庞大 矩阵 中 的 数据 时 ， 和 矩阵 分 解 及 
其 同类 方法 通常 是 他 们 的 首选 。 二 例如 ， 政 治学 家 使 用 和 矩 阵 分 解 来 理解 
国会 议员 如 何 投票 表决 立法 。 如 果 把 国会 议员 对 不 同 法 案 的 投票 放 到 一 
个 巨大 的 窍 阵 中 ， 并 对 其 应 用 和 矩阵 分 解 ， 我 们 就 可 以 用 一 两 个 数字 来 很 
好 地 概括 每 个 议员 和 每 一 项 法 案 。 三 例如 ， 在 两 年 的 时 间 里 ， 仅 仅 用 一 
个 数字 来 描述 每 一 个 议员 ， 你 束 可 以 解释 众议院 98% 的 选票 ， 这 个 数字 
可 以 解释 他 们 的 政党 。 如 果 你 用 这 个 数字 来 确定 议员 的 立场 ， 就 会 发 现 
民主 觉 和 共和 党 通常 是 完全 分 开 的 。 和 盾 阵 分 解 告 诉 我 们 ， 美 国 国会 议员 
的 投票 实际 上 是 一 维 的 。 














1. 秩 为 5 的 矩阵 分 解 可 以 把 全 和 矩阵 近似 为 一 个 17770x5 和 矩阵 和 一 个 5x480189 和 矩阵 的 乘 
积 。 其 中 仍然 有 很 多 数字 ， 但 它 远 远 小 于 我 们 所 拥有 的 1 亿 个 评分 ， 更 远 不 及 原始 矩阵 中 
的 85 亿 个 元 素 。 有 时 ， 我 们 把 矩阵 分 解 假 设 为 秩 为 3 的 矩阵 分 解 ， 其 中 一 个 因子 是 正方 形 

矩阵， 另外 两 个 因子 满足 某 些 约束 条 件 ， 例 如 列 向 量具 有 固定 的 长 度 且 相互 正 交 。 
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这 些 矩 阵 分 解 方法 包括 主 成 分 分 析 〈PCA) . ARRA (SVD) ASE AR 
(NMF) 。 

在 这 个 矩阵 中 ， 我 们 可 以 将 议员 设置 为 列 ， 将 法 案 设 置 为 行 ， 用 0 或 1 表示 每 个 议员 
如 何 投票 。 
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第 一 年 结束 


借助 矩阵 分 解 等 工具 来 捕捉 终结 者 效应 ， 并 将 它们 与 捕捉 童 北 软 效 
应 和 E.T. 效 应 的 模型 相 结 合 ， 顶 尖 团 队 朝 着 网 飞 奖 的 目标 取得 了 相当 大 
的 进展 。 到 第 一 年 结束 时 ， 顶 尖 团 队 算 法 的 推荐 效率 比 网 飞 自 己 的 
Cinematch 算 法 高 出 8% 左 右 。 这 并 不 足以 让 他 们 启 得 大 奖 ， 但 足以 保证 
一 些 团 队 有 资格 获得 5 万 美元 的 进步 奖 。 进 步 奖 每 年 颁发 一 次 ， 这 意味 
着 选 手 们 面临 着 即将 到 来 的 最 后 期 限 。 


随 着 最 后 期 限 的 临近 ， 由 AT&T 实 验 室 和 雅虎 的 研究 人 员 组 成 的 “ 贝 
和 尔 科 ” 队 也 在 顶尖 团队 之 列 ， 他 们 在 第 一 年 的 大 部 分 时 间 里 一 直 领 先 。 
但 在 比赛 的 早期 ， 领 跑 者 的 位 置 经 常 发 生变 化 。 来 目 多 伦 多 大 学 的 神经 
网 络 研 究 人 员 一 度 名 列 前 条， 他 们 发 表 了 一 篇 有 影响 力 的 论文 ， 包 
括 “ 贝 尔 科 ? 队 在 内 的 团队 都 使 用 了 论文 中 的 模型 。 组 成 < 种 龙 星球 ” 队 的 
三 位 普林斯顿 大 学 学 生 在 吐 假期 间 一 直 在 努力 挑 成 “贝尔 科 ? 队 。 三 而 另 
一 文 年 轻 的 新 贵 团 队 ， 来 目地 心 引 为 ” 队 的 两 名 匈牙利 研究 生 ， 那 时 正 
在 挑战 名 列 第 二 的 “ 念 龙 星球 ” 队 。 








随后 ， 在 2007 年 10 月 21 日 ， 也 就 是 第 一 年 最 后 期 限 的 前 一 天 ， 和 情况 
发 生 了 变化 。 一 直 徘 徊 在 第 二 和 第 三 的 两 支队 伍 一 一 “和 芍 龙 星球 ” 队 
和 “地 心 引 力 ” 队 结 成 了 联盟 。 他 们 把 各 自 的 模型 组 合 在 一 起 ， 把 模型 的 
平均 分 提交 给 排行 榜 ， 突 然 之 间 ， 他 们 一 跃升 至 榜首 。“ 贝 尔 科 ” 队 只 有 
一 天 的 时 间 来 重新 夺回 进步 奖 。 虽 然 他 们 还 没有 意识 到 ， 但 这 也 是 一 种 
现象 的 开始 ， 而 这 种 现象 将 影响 随后 的 比赛 。 








1. Steve  Lohr"Netflix Competitors Lear the Power of  Teamwork,"New 
YorkTimes, July27,2009;Mackenzie,“Accounting for Taste.” 


6 团队 融合 : 网 飞 奖 的 说 家 
实用 主义 的 (形容词) : 以 实际 的 而 非 理论 上 的 考虑 为 基础 ， 理 智 
而 现实 地 处 理事 情 。 


Hx C53): 复杂 系统 的 特性 ， 由 于 对 条 件 的 微小 变化 非常 敏 
感 ， 其 行为 不 可 预测 ， 以 致 表现 出 随机 性 。 


《牛津 笑语 词典 》，2017 年 
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网 飞 奖 的 第 一 年 充满 了 喧嚣 的 思想 和 模糊 的 进步 。 在 “贝尔 科 ” 队 登 
上 排行 榜 榜首 之 前 ， 其 他 几 支 队伍 也 在 榜首 位 置 进 进 出 出 ， 而 在 社区 中 
进行 的 一 系列 讨论 和 思想 交流 有 助 于 缩小 其 余 竞 争 者 之 间 的 差距 。 其 中 
一 些 讨论 是 在 专门 讨论 数据 挖掘 的 学 术 会 议和 研讨 会 上 进行 的 ;， 力 一 个 
讨论 场所 是 网 飞 奖 论坛， 这 是 网 飞 为 参赛 者 建立 的 在 线 社区 。 





网 飞 奖 论 坛 为 参赛 者 提供 了 一 个 非 正式 地 分 至 他 们 的 成 果 和 见解 的 
场所 。 比 赛 开 始 后 不 久 ， 论 坛 就 热 曾 起 来 。 正 如 一 位 赛事 组 织 者 所 言 : 


除了 踊跃 提交 成 果 之 外 ， 参 赛 者 在 网 飞 奖 论坛 上 也 有 大 量 的 接触 ， 
他 们 分 享 代码 和 编程 思路 、 额 外 的 数据 、 对 数据 中 发 现 的 模式 的 见解 ， 
甚至 汇总 成 果 (以 及 合并 团队 ) 以 提高 算法 准确 性 〈 即 “混合 ”) 。 三 


在 各 支队 伍 发 表 他 们 的 大 部 分 研究 成 果 之 前 ， 网 飞 同样 研究 了 论坛 
上 的 评论 ， 以 找 出 哪些 方法 表现 良好 。 在 比赛 开始 后 不 到 一 年 的 时 间 
里 ， 网 飞 在 这 个 论坛 上 注意 到 了 顶级 团队 提交 的 成 果 中 普遍 存在 的 两 个 
关键 思想 ， 一 是 对 和 矩阵 分 解 的 颇 有 影响 力 的 描述 ， 二 是 一 种 被 称 为 模型 
混合 的 方法 。(3 








报纸 和 杂志 也 开始 讲述 现实 生活 中 一 些 非 正 式 的 和 兼职 的 数据 科学 
家 晚上 和 周末 在 家 工作 的 故事 。 一 位 参赛 者 是 48 岁 的 管理 咨询 师 ， 拥 有 
心理 学 学 位 ， 正 在 考虑 是 否 要 获取 机 器 学 习 的 博士 学 位 。 在 比赛 中 ， 他 
以 “车 库 里 的 家 伙 ” 的 名 字 出 现 ， 尽 管 严格 来 讲 他 只 是 在 卧室 外 工作 。 三 
此 后 不 久 ，《 纽 约 时 报 》 报 道 了 一 位 32 岁 的 4 个 孩子 的 父亲 在 他 的 餐厅 
饭 果 上 工作 的 故事 。 还 有 一 位 51 岁 的 “ 半 退 休 ” 计 算 机 科学 家 和 他 12 岁 和 
13 岁 的 孩子 们 一 起 讨论 应 该 尝试 哪些 新 想法 的 故事 。 他 们 建议 仔细 研究 
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第 一 年 末 


在 第 一 年 比赛 的 最 后 几 周 ， 由 AT&T 和 雅虎 的 研究 人 员 组 成 的 “贝尔 
科 ” 队 占据 了 榜首 。 但 在 第 一 年 快 结束 的 时 候 ， 他 们 发 现 目 己 受到 了 第 
二 名 和 第 三 名 的 挑战 ， 这 两 支队 伍 一 一 “地 心 引 力 ” 队 和 “和 怒 龙 星球 ” 队 都 
由 雄心 动 动 的 年 轻 毕 业 生 组 成 。 





束 在 第 一 年 结束 的 前 一 天 ， 排 名 第 二 和 第 三 的 两 支队 伍 合 并 了 。 合 
并 后 的 团队 自称 “ 当 引 力 和 鸭 龙 联合 时 ” 队 ， 他 们 将 各 自 的 预测 模型 组 合 
在 一 起 ， 把 两 种 模型 的 平均 分 提交 给 了 网 飞 ， 这 支 新 组 建 的 团队 突然 路 
升 至 榜首 。 三 第 二 天 ,“ 贝 尔 科 ? 队 和 这 支 新 团队 争分夺秒 ， 疯 狂 地 编写 
和 调试 代码 。 从 技术 上 讲 ， 他 们 每 天 只 能 网 网 飞 提 交 一 个 模型 ， 因 此 他 
们 在 这 一 天 提交 的 最 终 成 果 依 然 算数 。“ 贝 尔 科 ” 队 成 功 地 提交 了 一 份 勉 
强 击败 “ 当 引 力 和 改 龙 联合 时 ? 队 的 成 果 ， 它 比 Cinematch 的 推荐 效率 高 
出 8.439%， 比 竞争 对 手 高 出 0.059%。 于 是 , “贝尔 科 ” 队 赢得 了 第 一 年 5 万 
美元 的 进步 奖 ， 但 优势 不 是 很 大 。 三 





为 了 拿 到 奖金 , “贝尔 科 ” 队 需要 发 表 一 份 天 于 他 们 算法 的 报告 。 完 
成 报告 之 后 ， 他 们 的 秘密 惑 公 开 了 ， 每 个 人 都 能 看 到 ， 并 且 他 们 周围 仍 
PAN IEDEHLEECBUSET A. BE Fe “贝尔 科 ” 队 发 现 想 要 超越 自 
己 的 成 果 变 得 越 来 越 困 难 。 第 一 年 , “贝尔 科 ?” 队 以 平均 每 周 提高 0.169% 
的 速度 接近 109% 的 目标 ， 第 二 年 却 平均 每 周 提高 0.02%。 他 们 的 进展 几 
AE HE 








第 一 年 ， 当 “贝尔 科 ” 队 建立 起 他 们 模型 中 最 成 功 的 组 件 时 ， 他 们 已 
经 摘 下 了 大 部 分 容易 摘 到 的 果实 。 这 包括 基准 模型 一 一 音调 鬼 效应 〈 用 
来 描述 用 户 评 高 分 或 低 分 的 倾 回 ) 和 E.T. 效 应 〈 用 来 解释 电影 是 好 是 
坏 ， 而 不 管 是 谁 给 电影 打分 ) ， 以 及 用 来 处 理 终结 者 效应 (总 结 用 户 的 
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第 二 年 ， 这 些 队伍 面临 着 所 谓 的 “大 人 物 拿破仑 问题 ”。 争 夺 网 飞 奖 
的 团队 发 现 ， 预 测 2004 年 的 另类 电影 《大 人 物 拿破仑 》 (Napoleon 
Dynamite) 对 不 同 观众 的 影 啊 极 其 困难 。 三 兄 莱 夫 : 汤 普 森 在 《纽约 时 
报 》 上 引用 了 一 位 参赛 者 的 话 ， 解 释 了 这 部 电影 带 来 如 此 大 挑战 的 原 
E. 





原因 是 《大 人 物 拿 破 仑 》 非 常 奇 怪 并 且 两 极 分 化 。 它 包含 了 许多 调 
皮 的 、 讽 刺 性 的 幽默 ， 包 括 一 段 由 名 义 上 的 青少年 角色 表演 的 著名 的 怪 
放大 中 ， 他 这 样 做 是 为 了 帮助 其 不 幸 的 朋友 赢得 学 生 会 选举 。 对 于 这 种 
古怪 的 娱乐 方式 ， 人 们 要 么 喜欢 ， 要 么 部 视 。 这 部 电影 在 网 飞 数据 库 中 
的 评分 已 经 超过 200 万 个 ， 而 且 评 分 不 成 比例 地 集中 在 1 星 和 5 星 。 三 


预测 网 飞 用 户 是 否 会 喜欢 《大 人 物 拿 破 仑 》 的 难点 在 于 ， 这 既 抓 住 
了 一 切 推荐 系统 的 核心 优势 ， 也 暴露 了 其 核心 缺点 : 个 性 化 推荐 只 有 在 
用 户 偶 好 存在 元 余 的 情况 下 才能 委 效 。 如 果 一 部 电影 与 其 他 电影 之 间 完 
全 不 存在 元 余 信 息 ， 那 么 矩阵 分 解 或 其 他 方法 都 不 会 对 该 电影 的 个 性 化 
推荐 奏效 。 三 这 并 不 意味 着 《大 人 物 拿 破 仑 》 没 有 元 余 ， 但 是 人 们 尝试 
了 很 多 方法 都 找 不 到 这 种 元 余 隐 藏 在 哪里 。 





这 感觉 就 像 评 分 窍 阵 是 一 条 湿 毛 巾 ， 这 些 团队 一 直 试 图 把 它 反 干 ， 
从 毛巾 里 搜集 珍贵 的 水 ， 再 把 水 盛 放 在 桶 里 。 他 们 一 直 在 努力 用 茶 一 种 
方式 打 毛 巾 ， 现 在 是 时 候 展开 毛巾 ， 尝 试用 为 一 种 方式 打 它 了。 因此， 
这 些 团队 答 试 了 一 些 不 同 的 方法 来 捕捉 终结 者 效应 ， 用 各 种 各 样 的 方式 
拧 毛 巾 。 


有 一 种 模型 甚至 在 第 一 年 就 流行 起 来 了 ， 那 就 是 
由 “ML@UToronto” 队 的 研究 人 员 开 发 的 人 工 神 经 网 络 。 这 个 神经 网 络 
在 数学 上 非常 类 似 于 矩阵 分 解 ， 但 它 处 理 人 缺失 评分 的 方法 不 同 ， 并 且 它 
将 评分 视 为 离散 的 1、2、3、4、5， 而 不 是 从 1.0 到 5.0 的 实数 。 换 句 话 
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各 队 使 用 的 另 一 种 方法 是 搜索 彼此 类 似 的 电影 。 如 果 你 喜欢 某 部 电 
影 ， 比 如 《 灰 姑 娘 》， 而 这 部 电影 和 你 从 未 评价 过 的 另 一 部 电影 〈 比 如 
《 睡 美 人 》 ) 非常 相似 ， 那 么 这 些 方法 应 该 可 以 问 你 推荐 后 一 部 电影 。 
各 队 还 试图 找 出 哪些 用 户 是 类 似 的 。 如 果 你 和 怀俄明 州 的 一 个 人 在 电影 
评分 方面 很 类 似 ， 而 这 个 人 给 一 部 你 从 没 看 过 的 电影 〈 比 如 《 回 到 未 
来 》) 评分 很 高 ， 那 么 这 些 方法 也 应 该 会 问 你 推荐 这 部 电影 。 当 然 ， 让 
这 些 方法 答 效 的 诀 罕 在 于 ， 它 们 如 何 判定 一 个 用 户 与 刀 一 个 用 户 “ 类 
似 "。 没 有 单一 的 、 正 确 的 方法 可 以 做 到 这 一 点 ， 但 是 各 队 尽 了 最 大 的 
努力 ， 在 他 们 的 程序 中 用 数学 函数 来 编码 他 们 的 直 筑 。 











解决 “大 人 物 拿 破 仑 问题 ”的 男 一 个 诀 突 是 ， 你 不 仪 要 看 用 户 对 不 同 
电影 的 评分 ， 还 要 看 他 们 给 哪些 电影 评 过 分 。 例 如 ， 不 管 你 是 人 否 喜 欢 电 
影 《 星 际 迷 航 4》“〔 即 船员 们 回 到 现在 的 地 球 寻 找 稣 的 那 一 部 )， 事 实 
上 ， 哪 伯 你 只 对 一 部 《星际 迷航 》 电 影 进行 了 评分 ， 这 束 给 出 了 很 多 有 
关 你 倾向 于 喜欢 哪 种 类 型 电影 的 信息 。' 三 团队 发 现 ， 通 过 整合 这 些 隐 合 
言 轧 ， 即 你 看 过 的 电影 ， 而 不 仅仅 是 你 对 它们 的 评分 ， 他 们 可 以 将 相对 
误差 降低 大 约 10%。 这 是 一 个 很 小 但 值得 庆 痪 的 进步 ， 因 为 他 们 此 时 要 
从 毛巾 里 挤 出 水 来 已 是 举步维艰 。 三 
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随时 间 变 化 的 预测 


在 比赛 的 第 二 年 ， 这 些 团队 还 将 注意 力 转 同 了 数据 的 一 个 不 同 部 
分 : 用 户 给 电影 评分 的 时 间 。 三 但 参赛 者 们 面临 着 一 个 问题 ， 即 网 飞 的 
评分 反映 了 一 个 不 断 变 化 的 世界 ， 电 影 的 受 欢迎 程度 会 随 着 时 间 的 推移 
而 变化 ， 人 们 目 己 也 会 随 着 时 间 的 推移 而 改变 上 自己 的 偏好 。 如 果 你 让 观 
众 给 一 部 电影 评分 ， 然 后 一 个 月 后 再 评价 一 次 ， 观 众 的 评分 会 平均 变化 
0.4 星 。 三 而 且 ， 让 事情 变 得 更 加 困难 的 是 ， 观 众 倾 问 于 在 周一 给 电影 


评分 ， 而 不 是 周 五 。 











“贝尔 科 ? 队 的 研究 人 员 解 决 了 这 个 问题 ， 让 模型 的 茶 些 部 分 具有 足 
够 的 灵活 性 ， 以 反映 他 们 对 评分 随时 间 变 化 的 观察 结果 。 他 们 在 基准 模 
型 中 重新 审视 了 电影 受 欢 迎 程度 的 偶 移 量 。 研 究 人 员 没 有 一 次 性 衡量 一 
部 电影 在 整个 时 期 内 的 受 欢 迎 程 度 ， 而 是 更 频繁 地 进行 测量 ， 以 10 周 为 
单位 对 评分 进行 分 类 。 (LÀ 





图 6.1 展 示 了 1999 年 上 映 的 电影 《黑客 帝国 》 (The Matrix) 的 平均 
受 欢迎 程度 ， 我 们 将 它 分 为 10 周 的 时 间 间 隔 。 在 1999 年 上 映 后 的 两 年 时 
BE, (Ar) INAS UE ET PRE. CER (Rie E2: 
重 装 上 阵 》 (Matrix Reloaded) 于 2003 年 5 月 上 映 ， 这 或 许可 以 解释 第 
一 部 《黑客 帝国 》 在 2003 年 初 为 什么 人 气 奖 升 。 
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图 6. 1 随时 间 推移 ， 电 影 《黑客 帝国 》 受 欢迎 程度 的 变化 





在 时 间 对 电影 评分 的 影响 方面 ， 更 大 的 挑战 在 于 观众 自身 。 有 时 
候 ， 用 户 会 一 次 给 多 部 电影 打分 ， 如 果 用 户 打分 时 的 心情 特别 好 或 特别 
坏 ， 那 些 “爆发 "就 可 能 会 发 生 。 还 有 一 些 时 候 ， 家 庭 中 的 主要 网 飞 用 户 
发 生 了 变化 ， 例 如 一 个 少年 看 网 飞 电影 的 时 间 开 始 超过 父母 。“ 贝 尔 
科 ” 队 解决 这 一 问题 的 方法 是 ， 假 设 用 户 的 偏好 可 能 会 随 着 时 间 的 推移 
逐渐 向 一 个 国定 的 方向 转变 ， 同 时 假设 他 们 在 某 一 天 的 评分 可 能 会 比 这 
种 渐变 的 趋势 所 暗示 的 评分 略 高 或 略 低 。 了 





其 他 情况 也 会 让 数据 严重 扭曲 。“ 贝 尔 科 ” 队 注意 到 ， 网 飞 用 户 的 评 
分 标准 可 能 随时 间 的 推移 而 趋 于 温和 ， 就 好 像 他 们 对 给 电影 评分 或 多 或 
少 变 得 不 感 兴趣 一 样 。 这 并 不 是 说 他 们 的 平均 评分 会 变 得 更 高 或 更 低 
《尽管 这 种 情况 也 发 生 过 ) 。 这 是 因为 ， 随 着 时 间 的 推移 ， 他 们 也 或 多 
或 少 变 得 极端 。 和 先前 一 样 , “贝尔 科 ” 队 捕捉 到 这 种 效应 的 方法 是 ， 假 
设 用 户 在 某 一 天 集中 对 多 部 电影 进行 评分 ， 而 当时 他 们 的 评分 标准 特别 
Um A AR o 三 





这 些 趋势 很 难 解 释 。“ 实 用 主义 理论 ? 队 的 成 员 《〈 即 我 们 在 上 一 章 中 
简要 介绍 过 的 “两 个 蝇 无 头绪 的 家 伙 ”) 注意 到 ， 用 户 在 茶 一 天 的 评分 数 
征 预测 电影 好 坏 的 一 个 有 用 的 指标 。 


“实用 主义 理论 ” 队 的 观察 结果 令 人 困惑 ， 因 为 这 不 仅仅 是 用 户 在 批 





量 评 分 时 出 现 的 异常 现象 ， 那 部 分 已 经 是 老生 第 谈 了 。 这 是 电影 评分 的 
一 个 特点 。 有 些 电影 在 批量 评分 中 得 到 的 分 数 往 往 高 于 预期 ， 而 有 些 电 
影 则 往往 低 于 预期。 当 “ 贝 尔 科 ” 队 最 终 从 “实用 主义 理论 ” 队 那 里 了 解 到 
ISKR, 他 们 假设 用 户 对 电影 的 记忆 是 不 对 称 的 。 有 些 电影 优秀 或 

差劲 到 让 人 难以 筷 却 ， 而 有 些 电影 则 只 是 让 人 有 点 印象 而 已 。 当 用 户 对 
电影 进行 批量 评分 时 ， 往 往 也 会 评价 他 们 很 久 以 前 看 过 的 电影 ， 特 别 是 
那些 令 人 难忘 的 好 电影 或 坏 电影 。 那 些 喜 欢 或 讨厌 某 部 令 人 难忘 的 好 电 
影 或 坏 电 影 的 人 会 在 很 长 一 段 时 间 后 仍然 记得 它 ， 并 很 可 能 在 批量 评分 
时 给 它 打分 ， 而 那些 对 它 没 有 强烈 感觉 的 人 在 下 一 次 批量 评分 时 就 会 瑟 
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网 飞 奖 的 数据 集 里 充满 了 像 这 样 的 隐藏 的 宝石 。 下 面 是 男 一 个 例 
di: 一 个 名 为 “大 混沌 ”的 团队 注意 到 ， 电 影 名 中 的 字母 数量 可 以 用 来 预 
测 用 广 生 合 喜 欢 它 〈 效 采 个 是 很 明显 ， 但 影响 确实 存在 ) 。 随 着 比赛 的 

进行 ， 各 文 队伍 一 点 一 点 地 挖掘 出 这 些 宝石 。 
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过 度 拟 合 





由 于 网 飞 为 参赛 者 提供 了 海量 数据 ， 各 文 队 伍 可 以 在 各 目的 模型 中 
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个 团队 有 预感 ， 认 为 电影 的 流行 程度 可 以 用 来 预测 用 户 的 评分 (的 确 如 
JE) ， 那 么 他 们 只 需要 在 模型 中 为 每 部 电影 添加 一 个 新 参数 来 "吸收 ?这 
些 信 息 。 三 如 果 团 队 预 感 用 户 可 能 会 在 他 们 的 评分 上 有 所 偏颇 〈 的 确 如 
此 ) ， 那 么 他 们 也 只 需要 在 模型 中 为 每 个 用 户 添加 一 个 新 的 参数 来 “ 吸 
收 ?这 些 信息 。 这 两 个 参数 便 构 成 了 他 们 的 基准 模型 。 当 一 个 团队 还 想 
假设 电影 的 流行 程度 会 随时 间 的 推移 而 改变 ， 用 户 的 偏好 也 会 随时 间 的 
推移 而 改变 时 ， 他 们 就 会 在 模型 中 为 这 两 种 情况 分 别 添加 参数 。 





各 文 队 伍 在 使 用 这 些 参数 时 所 面临 的 主要 风险 在 于 ， 他 们 在 模型 中 
添加 的 灵活 性 是 否 超 出 了 他 们 所 拥有 的 数据 量 所 能 承载 的 范围 ? 如 果 他 
们 添加 了 太 多 的 参数 ， 就 会 有 “过 度 拟 合 ”数据 集 的 风险 。 过 度 拟 合意 味 
独 他 们 在 预测 评分 方面 的 出 色 表 现 可 能 只 是 海 市 古 楼 。 他 们 可 能 认为 目 
己 预测 的 评分 很 准 ， 因 为 他 们 预测 的 误 莽 看 上 去 很 小 ， 而 实际 上 这 是 因 
为 他 们 要 处 理 的 参数 太 多 一 一 本 质 上 是 有 太 多 旋钮 要 调 ， 这 使 其 模型 看 
起 来 比 实际 情况 要 好 。 如 果 过 度 拟 合 数据 集 ， 那 么 他 们 表面 上 很 准确 的 
预测 可 能 无 法 移植 到 网 飞 用 来 评估 参赛 者 的 秘密 数据 集 上 。 例 如 , “由 
尔 科 ” 队 可 以 在 其 模型 中 为 其 数据 集中 的 每 个 “用户 一 电影 ?匹配 添加 一 
个 参数 ， 让 模型 可 以 精确 地 解释 电影 数据 集中 的 评分 。 三 但 是 ， 这 对 于 
预测 他 们 以 前 从 未 见 过 的 “用 户 一 电影 ?匹配 的 评分 坚 无 用 处 。 幸 运 的 
是 ， 参 赛 者 很 容易 注意 到 上 自己 是 否 过 度 拟 合 ， 因 为 他 们 可 以 保留 自己 数 
气 集 的 一 小 部 分 (网 飞 为 此 提供 了 一 个 样本 ) ， 并 对 其 进行 测试 ， 以 确 
保 目 己 没 有 过 度 拟 合 。 当 我 们 在 接 下 来 的 几 章 中 讨论 神经 网 络 时 ， 会 看 
到 更 多 处 理 过 度 拟 合 的 方法 。 























1. 








请 注意 ， 影 片 的 “平均 值 * 可 能 与 线性 模型 中 的 系数 不 同 ， 因 为 它 会 被 模型 中 的 其 他 部 
分 扭曲 。 


除了 那些 不 止 一 次 给 电影 评分 的 用 户 。 














模型 混合 


网 飞 奖 的 进展 和 第 一 年 的 结局 让 参 守 者 们 瞄 目 结 壬 。“ 贝 尔 科 ” 队 在 
社区 上 发 表 了 他 们 的 工作 成 果 后 ， 同 行 们 仔细 研究 了 报告 ， 阅 读 了 他 们 
的 基准 模型 、 和 矩阵 分 解 模 型 以 及 使 用 的 神经 网 络 。 他 们 还 了 解 了 “贝尔 
科 ” 队 把 各 种 不 同 版 本 的 模型 混合 在 一 起 的 方法 。 其 他 参赛 者 并 不 会 
因 “ 贝 尔 科 ” 队 一 直 在 混合 模型 而 感到 奇怪 ， 这 并 不 是 什么 秘密 ， 而 且 混 
合 模 型 已 经 在 网 络 论坛 上 被 讨论 过 了 。 但 是 现在 他 们 根据 “贝尔 科 ” 队 的 
论文 可 以 肯定 的 是 ， 混 合 模型 是 有 效 的 。 此 外 ， 当 "地 心 引 力 ” 队 和 “ 愁 
龙 星球 ” 队 合 并 时 ， 他 们 将 两 个 独立 模型 组 合 在 一 起 ， 把 模型 的 平均 分 
提交 给 排行 榜 ， 此 时 就 隐 含 地 使 用 了 模型 混合 。 














当 “ 贝 尔 科 ” 队 研究 如 何 预 测评 分 时 ， 他 们 需要 做 出 许多 关于 模型 中 
应 该 包含 哪些 内 容 的 决定 。 他 们 在 拟 合 矩 阵 分 解 模 型 的 时 候 需 要 回答 一 
些 问题 ， 例 如 ， 应 该 用 多 少 种 类型 来 总 结 每 部 电影 ? 是 否 应 该 包含 隐 合 
的 评分 信息 ? 当 他 们 为 电影 拟 合 类 似 电影 的 模型 时 ， 他 们 需要 决定 两 部 
电影 类 似 意 味 独 什么 。 他 们 可 以 尝试 一 些 有 根据 的 猜测 ， 并 用 数据 验证 
崩 测 ， 但 是 他 们 要 做 出 很 多 不 同 的 决定 。 如 果 他 们 试图 调整 所 有 参数 ， 
为 所 有 猜测 找到 完美 设置 ， 那 么 很 可 能 会 过 度 拟 合 。 





TH, “贝尔 科 ” 队 创建 了 许多 具有 不 同 参 数 设 置 的 模型 ， 然 后 对 它 
们 进行 平均 。 为 了 赢得 第 一 个 进步 奖 ， 他 们 对 107 个 不 同 的 模型 做 了 平 
均 。“ 贝 尔 科 ” 队 需 要 把 百 余 个 不 同 的 模型 结合 起 来 吗 ? 或 许 不 需要 。 他 
们 注意 到 ， 使 用 这 么 多 模型 在 茶 种 程度 上 是 为 了 方便 。 他 们 已 经 从 早期 
的 实验 中 得 到 了 这 些 模型 ， 而 且 把 它们 保留 在 最 终 的 混合 模型 中 并 没有 
什么 坏处 ， 所 以 为 什么 不 用 呢 ? 但 是 他 们 发 现 ， 只 需 大 约 50 种 模型 ， 他 
们 就 能 得 到 同样 好 或 更 好 的 结果 。 














PDRP EN KWI El URE BA RE, A ARAL 
AX? 他 们 的 107 个 模型 中 哪 一 个 最 好 ?团队 成 员 之 一 耶 胡 达 : 科 伦 
(Yehuda Koren) 列举 了 一 些 优点 : 


模型 混合 可 以 让 我 们 把 注意 力 集中 在 相对 简单 的 、 易 于 编程 和 运行 
的 模型 上 。 其 结果 对 于 避免 编程 错误 和 过 度 拟 合 也 更 加 有 效 ……: 


我 不 会 只 推荐 其 中 茶 一 个 预测 因子 。 你 至 少 希 望 在 多 个 尺度 (林地 
+ 区 域 ) 上 解释 数据 。 





换言之 ， 混 合 模型 对 实用 性 和 建 模 都 有 好 处 。 使 用 许多 简单 模型 的 
平均 分 是 实用 的 ， 因 为 简单 模型 易于 编程 且 不 易 出 错 。 如 果 使 用 很 多 不 
同 的 模型 ， 那 么 你 可 以 在 不 同 的 “粒度 ”下 捕捉 数据 集 里 的 不 确定 性 。 例 
如 ， 如 果 你 正在 考虑 在 矩阵 分 解 模 型 中 使 用 10 种 还 是 100 种 电影 类 型 ， 
那么 你 可 以 简单 地 同时 使 用 这 两 种 方式 。10 种 电影 类 型 的 模型 可 以 捕捉 
每 个 用 户 电影 偏好 的 高 层次 要 点 ， 而 100 种 电影 类 型 的 模型 可 以 捕捉 到 
用 户 偏 好 的 细微 差别 。 

















这 种 模型 平均 的 思想 也 得 到 了 丰富 的 理论 结果 的 支持 ， 而 且 这 种 直 
觉 很 容易 理解 。 假 设 你 在 股票 市 场 投 资 ， 你 正在 决定 是 把 所 有 的 钱 都 投 
到 平均 年 回报 率 为 12% 的 股票 A 上 ， 还 是 投资 100 只 不 同 的 股票 ， 每 只 股 
票 的 平均 年 回报 率 为 12%。 如 果 所 有 这 些 股票 的 收益 结果 都 有 同样 的 不 
确定 性 ， 那 么 你 最 好 把 资金 平分 给 100 只 股票 。 三 为 什么 ? 因为 你 仍然 
可 以 期 望 平均 每 年 获得 12% 的 收益 ， 但 你 对 结果 的 不 确定 性 会 降低 ， 一 
些 回 报 率 低 于 12% 的 股票 将 被 回报 率 超 过 12% 的 股票 抵消 。 三 “贝尔 
科 ” 队 的 107 个 模型 每 一 个 都 经 过 了 “训练 ”， 可 以 对 用 户 的 电影 评分 做 出 
不 同 的 预测 。 因 此 ， 通 过 混合 这 107 个 模型 , “贝尔 科 ” 队 的 新 预测 器 仍 
然 可 以 做 出 同样 的 预测 ， 但 不 确定 性 更 小 。 














但 你 可 能 会 说 ， 等 等 。 我 们 看 到 ，2008 年 和 2009 年 的 金融 危机 发 生 
时 ， 整 个 股市 都 下 跌 了 。 投 资 100 只 股票 不 会 有 多 少 保障 ， 因 此 这 种 “不 








确定 性 更 小 ”的 说 法 并 不 正确 。 没 错 ， 这 正 是 模型 混合 适用 于 何 种 场合 
的 核心 所 在 。 大 多 数 股 票 是 相互 关联 的 ， 当 模型 不 相关 时 ， 模 型 混合 效 
果 很 好 。 如 果 一 个 模型 预测 网 飞 的 评分 过 高 ， 那 么 其 他 模型 应 该 有 助 于 
缓和 这 种 结果 ， 而 不 是 加 强 这 种 结果 。 当 模型 不 相关 时 ， 这 种 缓和 效果 
更 容易 出 现 。 





过 研究 “提升 ”(boosting) 算法 ， 我 们 可 以 进一步 了 解 模型 混合 
“提升 ?算法 是 顶级 团队 在 提交 成 果 时 用 来 混合 模型 的 方法 之 
一 。“ 提 升 ? 算 法 背后 的 直觉 是 ， 通 过 组 合 许多 弱 模 型 〈 每 个 模型 可 能 都 
不 太 好 ， 但 至 少 都 有 点 好 处 ) ， 我 们 最 终 可 以 得 到 一 个 比 所 有 原始 模型 
都 更 加 强大 的 模型 。 三 














为 了 将 “提升 ”算法 应 用 到 类 似 网 飞 奖 这 样 的 问题 上 ， 我 们 首先 要 训 
BR DAMM UN 的 评分 。 它 的 预测 不 会 很 完美 ， 所 以 
我 们 选 出 模型 的 错误 评分 ， 并 放大 它们 。 也 就 是 说 ， 我 们 给 予 它们 比 其 
他 评分 更 大 的 权重 ， 因为 我 们 希望 类 器 下 次 更 多 地 关注 它们 。 然 后 我 
们 用 这 些 调整 后 的 权重 拟 合 第 二 个 模型 。 接 下 来 ， 我 们 一 次 又 一 次 地 重 
复 这 个 过 程 ， 放 大 错误 的 评分 ， 每 次 都 重新 构造 一 个 新 模型 。 完 成 的 时 
候 ， 我 们 会 很 容易 地 训练 出 几 十 个 、 几 百 个 ， 甚 至 几 千 个 模型 。 如 果 我 
们 用 合适 的 权重 对 这 些 模型 进行 平均 ， 结 果 将 是 一 个 混合 的 庞大 模型 ， 
它 的 效果 比 任何 一 个 模型 都 要 好 。 
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第 二 年 


随 着 第 二 年 的 到 来 ， 其 他 几 支 队伍 开始 在 排行 榜 上 对 “贝尔 科 ” 队 造 
成 威胁 。“ 当 引力 和 恺 龙 联合 时 " 队 一 直 紧 随 其 后 ， 但 是 在 第 一 个 夏天 之 
后 ， 来 自 "恐龙 星球 > 队 的 三 名 普林斯顿 大 学 的 学 生发 现 他 们 要 忙于 研究 
生 学 习 和 工作 。( 己 随 着 第 二 年 的 比赛 临近 结束 ， 另 一 支 名 叫 “ 大 混沌 "的 
团队 开始 逼近 “贝尔 科 ? 队 。 





“大 混沌 ? 队 对 他 们 混合 模型 的 方式 开展 了 大 量 实 验 。 第 一 年 ， 他 们 
简单 地 使 用 加 权 平 均 来 组 合 模型 。 第 二 年 ， 他 们 发 现 神经 网 络 在 组 合 模 
型 时 特别 有 用 。 与 简单 地 采用 平均 值 相 比 ， 神 经 网 络 可 以 学 习 一 种 更 复 
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但 是 ， 随 着 第 二 年 的 继续 ， 所 有 项 级 团队 部 很 难 取得 更 大 的 进步 。 
网 飞 奖 组 织 者 开始 怀疑 参赛 者 是 否 能 取得 足够 大 的 进步 来 启 得 奖项 。 三 
随 着 第 二 个 进步 奖 最 后 期 限 的 临近 ， 情 况 变 得 更 加 严峻 。 对 任何 一 文 想 
要 获得 第 二 个 5 万 美元 进步 奖 的 团队 而 言 ， 他 们 需要 比 前 一 年 8.43% 的 进 
步 高 出 整整 1 个 百 分 氮 。“ 贝 尔 科 ? 队 和 “大 混沌 ? 队 位 列 前 两 名 ， 但 以 他 
们 的 进步 速度 来 看 ， 可 能 需要 一 个 多 月 的 时 间 才 能 达到 9.43% 的 目标 。 








最 后 , “贝尔 科 ?” 队 和 “大 混沌 ? 队 引 发 了 另 一 场 混 乱 : 他 们 合并 成 了 
一 个 团队 。 他 们 决定 把 合并 后 的 团队 命名 为 “大 混沌 中 的 贝尔 科 ”， 其 成 
果 比 Cinematch 的 推荐 效率 高 出 了 9.44%。 这 已 经 微微 越过 了 他 们 获得 第 
二 个 进步 奖 的 门槛 ， 虽 然 距离 10% 的 目标 还 相距 其 远 ， 但 这 足以 让 新 团 
队 启 得 5 万 美元 的 奖金 。 














“大 混沌 中 的 贝尔 科 ” 队 的 5 名 成 员 终于 可 以 停 下 来 ， 集 体 松口 气 


了 ， 但 他 们 不 能 休息 太 久 。 如 宁 第 三 年 还 是 没有 团队 能 达到 10% 的 目 
标 ， 那 么 任何 人 都 没有 资格 获得 进步 奖 。 比 赛会 就 此 结束 吗 ? bm], 58 
气 中 也 弥漫 着 对 另 一 个 话题 的 猜测 : 接 下 来 哪些 团队 会 合并 ? 比赛 进入 
J 了 一 个 新 阶段 ， 各 文 队伍 的 注意 力 开 始 从 预测 评分 转 回 为 团队 寻找 最 佳 
的 合并 策略 。 
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最 后 一 年 


最 后 一 年 里 , “大 混沌 中 的 贝尔 科 ? 队 继续 名 列 榜首 ， 而 “ 当 引 力 和 
臣 龙 联合 时 ” 队 始 终 紧 随 其 后 。 但 到 那 时 ， 另 一 文 队 伍 开始 出 现在 排行 
榜 上 ， 它 就 是 “实用 主义 理论 ” 队 ， 即 我 们 已 经 见 过 几 次 的 那个 自称 “两 
个 坚 无 头绪 的 家 伙 ” 的 加 拿 大 二 人 组 。 尺 管 最 初 对 这 个 领域 并 不 熟悉 ， 
但 他 们 发 现 网 飞 社区 非常 适合 学 习 ， 他 们 仔细 研究 了 其 他 参赛 者 的 方 
法 。 当 “大 混沌 中 的 贝尔 科 ? 队 发 表 研 究 结 果 时 , “实用 主义 理论 ? 队 的 成 
员 立 即 下 载 并 仔细 研究 论文 。 随 看 时 间 的 推移 , “实用 主义 理论 ” 队 孜 孜 
AES LE, TER TART EM ARATE 二 





如 果 说 “贝尔 科 ” 队 强调 的 是 协同 过 渡 理 论 ,，“ 大 混沌 ” 队 强 调 的 是 模 
型 混合 ， 那 么 “实用 主义 理论 ” 队 的 重点 就 是 他 们 投入 的 大 量 努 力 和 获得 
的 成 果 。 在 他 们 发 表 的 一 篇 关于 其 方法 的 论文 中 ， 我 从 他 们 的 混合 模型 
中 统计 出 了 707 种 不 同 的 模型 。 虽 然 这 对 网 飞 想 要 实现 的 系统 而 言 是 不 
切实 际 的 ， 但 “实用 主义 理论 ? 队 对 此 并 不 关心 。 他 们 关心 的 是 尽 可 能 准 
确 地 预测 评分 。 他 们 在 一 篇 论文 中 概述 了 这 一 理念 (加 粗 部 分 是 作者 标 
注 的 ) : 











本 文中 介绍 的 解决 方案 专门 用 于 构建 一 个 能 够 以 最 高 的 准确 度 预测 
用 户 评分 的 系统 …… 该 解决 方案 是 基于 大 量 的 模型 和 预测 器 的 ， 这 些 模 
型 和 预测 器 作为 商业 推荐 系统 的 一 部 分 并 不 实用 。 然 而 ， 这 是 竞赛 的 性 
质 和 目标 导致 的 ， 这 个 目标 就 是 : 不 惜 一 切 代价 获得 尽 可 能 高 的 准确 
度 ， 完 全 不 考虑 解决 方案 的 复杂 性 和 执行 性 能 。 二 

换言之 , “实用 主义 理论 ? 队 之 所 以 开发 了 一 种 实施 起 来 不 切实 际 的 
解决 方案 ， 正 是 因为 他 们 务实 。“ 大 混沌 中 的 贝尔 科 ” 队 看 到 了 他 们 的 另 
一 个 特点 。 最 初 的 “贝尔 科 ” 队 成 员 克 里 斯 - 沃 林 斯 基 解 释 说 ， 他 和 他 的 
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因 , “实用 主义 理论 ” 队 也 令 “ 大 混沌 中 的 贝尔 科 ” 队 感到 担忧 。 


比赛 后 期 ， 社 区 的 焦点 已 经 从 优化 和 混合 各 队 的 模型 转变 成 优化 
队 。 由 于 每 个 团队 在 改进 他 们 的 模型 时 都 面临 着 同样 的 困难 ， 比 赛 的 基 
调 开 始 暗示 这 些 团队 将 会 继续 合并 ， 以 达到 10% 的 目标 。 


“大 混沌 中 的 贝尔 科 ? 队 注意 到 ， 那 个 无 所 朋 惧 的 加 拿 大 二 人 组 “ 实 
用 主义 理论 ” 队 是 其 余 队 伍 的 首要 “合并 目标 ?>。 如 果 另 一 文 队伍 选择 了 
他 们 ， 那 么 这 文 新 队伍 很 可 能 会 成 为 一 个 严重 的 威胁 。“ 大 混沌 中 的 由 
尔 科 ” 队 是 否 应 该 尝试 与 “实用 主义 理论 ” 队 合 并 ? 或 许 是 的 ,“ 大 混沌 中 
的 贝尔 科 ” 队 也 在 与 其 他 团队 进行 秘密 讨论 ， 或 许 还 有 更 好 的 团队 可 以 
合并 ， 比 如 “ 当 引 力 和 芍 龙 联合 时 ” 队 ， 那 个 由 刚 从 普林斯顿 大 学 毕业 、 
进入 工业 和 研究 生 院 的 三 个 人 与 匈牙利 研究 生 合 并 成 的 队伍 。 

















“大 混沌 中 的 贝尔 科 ” 队 需要 采取 行动 ， 而 且 动 作 要 快 。 大 约 在 这 个 
时 候 ,，“ 当 引力 和 和 恺 龙 联 合 时 ” 队 成 立 了 一 个 名 为 “大 奖 队 ”的 新 团队 。 这 
文 新 团队 邀请 任何 人 加 入 ， 他 们 愿意 提供 100 万 美元 奖金 的 一 小 部 分 ， 
比例 取决 于 新 来 者 对 胜利 所 做 出 的 贡献 。 这 让 “大 混沌 中 的 贝尔 科 ” 队 感 
到 了 深 深 的 仆 惧 ， 因 为 如 果 像 “实用 主义 理论 ? 队 这 样 的 团队 加 入 了 “大 
奖 队 ”， 那 么 他 们 的 比赛 可 能 很 快 就 要 结束 了 。 








最 后 ,“ 大 混沌 中 的 贝尔 科 ” 队 决定 与 “实用 主义 理论 ” 队 合并 ， 组 成 
新 的 团队 “贝尔 科 的 实用 主义 混沌 * 队 你 可 以 在 图 6.2 中 查看 领先 团队 的 
合并 过 程 ) 。 在 合并 之 前 ,，“ 大 混沌 中 的 贝尔 科 ” 队 曾 与 “实用 主义 理 
论 ” 队 以 及 其 他 团队 秘密 讨论 过 一 段 时 间 。 当 “贝尔 科 的 实用 主义 混 
沌 ? 队 提交 其 组 合 模型 时 ， 他 们 领先 Cinematch 推 荐 效率 的 优势 达到 了 
10.05%， 超 过 了 10% 的 门槛 。 





但 比赛 还 没有 结束 。 网 飞 的 规则 规定 ， 一 旦 有 一 文 队伍 率先 突破 
10% 的 门槛 ， 就 会 开始 30 天 的 “最 后 通 典 ”"。 当 这 段 时 间 结 束 时 ， 网 飞 会 


核 但 哪 支 队伍 对 比赛 刚 开始 时 预 留 的 双重 秘密 数据 集 的 预测 误差 最 小 ， 
以 此 决定 获胜 者 。 对 这 个 双重 秘密 数据 集 的 预测 分 数 将 精确 到 小 数 点 后 
第 4 位 ， 如 末 出 现 平 局 ， 束 根据 提交 时 间 的 先后 决定 胜 负 。 


剩 下 的 队伍 还 有 一 个 月 的 时 间 迎 头 赶 上 。 团 队 的 合并 仿佛 沸水 翻腾 
的 水 泡 ， 水 泡 溢出 后 变 成 了 绝望 的 泡沫 。 包 括 “ 大 奖 队 ? 在 内 的 其 他 主要 
团队 促成 了 一 项 交易 ， 成 立 了 一 个 名 为 “集成 ? 队 的 大 型 联盟 ， 由 30 多 文 
队伍 组 成 。 机 器 学 习 中 的 “集成 ?就 是 混合 不 同 模型 的 另 一 个 说 法 。 三 





“集成 ? 队 的 成 员 在 内 部 讨论 了 他 们 最 后 一 个 月 的 策略 : 他 们 是 否 应 
该 等 到 最 后 一 分 钟 ， 然 后 提交 他 们 的 混合 模型 ? 还 是 应 该 尽早 提交 并 且 
经 常 提交 ?人 述 交 可 以 使 他 们 的 存在 成 为 一 个 秘密 ， 并 让 “贝尔 科 的 实用 
主义 混沌 ” 队 大 吃 一 惊 。 但 是 ， 提 前 提交 可 以 让 他 们 避免 所 有 最 后 一 刻 
可 能 出 现 的 致命 失误 。 最 终 ， 他 们 投票 决定 将 “集成 ” 队 的 存在 保密 ， 并 
在 截止 日 期 的 前 一 天 作为 一 个 团队 提交 了 他 们 的 第 一 次 成 果 。 当 那 一 天 
到 来 的 时 候 ， 他 们 以 “集成 ? 队 的 名 义 提 交 了 模型 ， 成 绩 为 10.09%， 人 勉强 
击败 了 “贝尔 科 的 实用 主义 混沌 ? 队 ， 当 时 后 者 的 成 绩 是 10.08%。 在 最 后 
期 限 前 24 分 钟 , “贝尔 科 的 实用 主义 混沌 ? 队 再 次 提交 成 果 ， 成 绩 也 是 
10.09%。 然 后 ， 在 最 后 期 限 前 4 分 钟 , “集成 ? 队 又 提交 了 一 个 成 绩 达 到 
10.1% 的 模型 。 比 赛 结束 了 ， 网 飞 需要 在 他 们 的 双重 保密 数据 集 上 评估 
这 些 模型 。 





在 双重 保密 数据 集 上 验证 之 后 , “贝尔 科 的 实用 主义 混沌 ? 队 和 * 集 
成 ” 队 的 最 终 成 绩 在 小 数 点 后 第 4 位 仍然 持平 ， 根 据 网 飞 的 规则 ， 他 们 打 
成 了 平手 ， 要 根据 提交 时 间 决 定 胜 负 。“ 贝 尔 科 的 实用 主义 混沌 ” 队 早 
于 “集成 * 队 20 分 钟 提交 了 模型 ， 因 此 为 期 三 年 的 比赛 结束 了 。“ 贝 尔 科 
的 实用 主义 混沌 ? 队 赢得 了 100 万 美元 奖金 。 三 
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图 6. 2 这 张 图 展示 了 各 支队 伍 向 网 飞 奖 迈进 的 过 程 。 最 终 赢 得 比赛 的 是 “贝尔 科 的 
实用 主义 混沌 ” 队 


1. Thompson,“If You Liked This, You're Sure to Love That." 


2. Martin Piotte and Martin Chabbert,“The Pragmatic Theory Solution to the Netflix Grand 
Prize,"Technical Report,Pragmatic Theory,Inc.,Canada,2009. 


3. Mackenzie,“ Accounting for Taste.” 


4. Tem 奖 典 礼 上 ， 网 飞 透露 ， 两 支队 伍 的 得 分 在 小 数 点 后 第 6 位 依然 持平 ， 不 过 事实 
上 ,“ 贝 尔 科 的 实用 主义 混沌 ? 队 的 预测 确实 略 胜 一 筹 。 








者 后 


里 然 决 赛 队 伍 的 表现 令 人 印象 深刻 ， 但 网 飞 从 未 实施 “贝尔 科 的 实 
用 主义 混沌 ”* 队 和 “集成” 队 提交 的 最 终 柑 型。 一些 人 显然 对 此 感到 不 
安 ， 甚 至 称 网 飞 奖 是 失败 的 。 尽 管 网 飞 试图 匿名 化 他 们 的 数据 集 ， 但 一 
组 研究 人 员 指出 ， 从 理论 上 讲 ， 这 些 数据 集 暴 露 了 用 户 的 隐私 ， 而 且 这 
些 说 法 被 媒体 广泛 曲解 。 结 果 ， 网 飞 撤回 了 他 们 公布 的 数据 集 ， 并 试图 
清除 数据 集 的 所 有 痕迹 ， 一 名 参赛 者 称 之 为 "该死 的 耻辱 ”。 








除 此 之 外 ， 这 次 竞赛 从 很 多 方面 看 都 是 成 功 的 。 首 先 ， 网 飞 采纳 了 
竞赛 中 的 一 些 想法 。 他 们 发 现 ， 参 赛 队伍 在 第 一 年 使 用 的 两 种 方法 一 一 
矩阵 分 解 和 “ML@UToronto” 队 开发 的 神经 网 络 ， 对 网 飞 目 己 的 算法 有 
显著 的 改进 ， 仅 这 两 项 就 使 Cinematch 的 推荐 效率 提高 了 7.6%。 网 飞 支 
付 了 两 次 5 万 美元 的 进步 奖 和 100 万 美元 的 大 奖 ， 作 为 回报 ， 他 们 得 到 了 
世界 级 专家 们 数 干 小 时 的 前 沿 研 究 成 果 ， 同 时 也 在 紧张 的 人 力 资 源 市 场 
中 得 到 了 接触 这 类 人 才 的 机 会 。 三 














或 许 最 重要 的 是 ， 网 飞 还 得 到 了 强 有 力 的 证 据 ， 证 明 精 力 的 投入 不 
应 该 超过 某 个 限度 。 他 们 从 参赛 者 身上 看 到 自己 应 该 从 哪里 开始 期 待 回 
报 递减 。 与 此 同时 ， 他 们 也 看 到 自己 的 业务 更 多 地 朝 在 线 流 媒体 视频 的 
方向 发 展 ， 而 远离 DVD 租赁 。 虽 然 推荐 引擎 仍 将 是 其 新 产品 的 一 个 重要 


特征 ， 但 他 们 还 有 其 他 事情 要 考虑 。 

















网 飞 奖 对 研究 型 社区 而 言 也 是 一 次 成 功 。 虽然 DARPA 无 人 车 挑战 
赛 收 到 了 数 百 个 参赛 成 果 ， 但 网 飞 奖 收 到 了 数 万 个 。 = 在 技术 方面 ， 况 
赛 根据 经 验 将 矩阵 分 解 和 模型 平均 确定 为 推荐 系统 的 最 佳 方法 。 虽 然 这 
些 思想 已 经 存在 了 很 长 一 段 时 间 ， 但 竞赛 通过 提供 客观 和 公开 的 证 据 证 
明了 它们 的 表现 ， 并 帮助 宣传 了 这 些 思想 。 


3. 


Xavier Amatriain and Justin Basilico, "Netflix Recommendations:Beyond the5Stars,”The 
Netflix Tech Blog.Netflix, April6,2012,accessed 
March4,2017,http://techblog.netflix.com/2012/04/netflix-recommendations-beyond5-stars.html. 


Amatriain and Basilico, "Netflix Recommendations." 
这 种 差异 在 很 大 程度 上 可 能 是 因为 ， 参 与 网 飞 奖 的 竞争 只 需要 少量 的 资金 投入 ， 基 


本 上 只 需要 一 个 桌面 工作 站 ， 而 开发 自动 驾驶 汽车 的 团队 所 需要 的 资金 可 能 很 容易 达到 
数 十 万 甚至 数 百 万 美元 。 












































7 用 炎 励 教导 计算 机 


为 什么 我 们 没有 可 以 打扫 房间 或 跟 在 孩子 后 面 打扫 卫生 的 机 器 人 ? 
这 并 不 是 因为 我 们 没有 机 械 能 力 ， 有 些 机 器 人 可 以 做 到 这 一 点 。 但 问题 
是 每 栋 房 子 、 每 个 厨房 都 是 不 同 的 。 你 无 法 预先 对 一 台 机 器 进行 编程 ， 
所 以 它 必须 在 自己 所 处 的 环境 中 学 习 。 


杰 米 斯 * 哈 萨 比 斯 (Demis Hassabis) 
DeepMind CRA EZ) 公司 创始 人 £) 


1. Quoted in Jemima Kiss,“Hi-Tech Dealing:The Connections That Led toGoogle Buying 
DeepMind,”The Guardian, June23,2014. 
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2014 年 初 ， 在 谷歌 的 目 动 驾驶 汽车 项 目 如 火 如 茶 地 进行 之 际 ， 该 公 
司 掀起 了 一 场 收 购 狂 潮 ， 否 并 了 多 家 人 工 智 能 和 机 器 人 公司 。 在 此 期 
间 ， 他 们 以 超过 5 亿美 元 的 价格 收购 了 一 家 名 为 DeepMind 的 神秘 小 公 
司 。 当 时 ，DeepMind 只 有 大 约 50 名 员工 。 它 的 网 站 似乎 只 有 一 个 网 
页 ， 上 面 列 出 了 公司 的 创始 人 和 两 个 电子 邮箱 地 址 。 





谷歌 在 每 个 周 五 都 会 召开 一 次 名 为 “TGIF” 的 全 员 会 议 。 公 司 的 创始 
人 和 其 他 领导 利用 这 个 会 议 发 布 公告 ， 分 享 公司 各 组 织 内 部 项 目的 细 
节 。 谷 歌 收购 DeepMind 几 个 月 后 ， 有 关 DeepMind 将 在 该 会 议 亮 相 的 消 
恩 传 和 了 公司 。 终 于 ， 谷 歌 的 每 个 人 都 能 了 解 这 个 秘密 部 门 在 这 段 时 间 
FA LAE Ts 


DeepMind 在 会 议 上 解释 说 ， 他 们 已 经 找到 了 让 计算 机 程序 自学 玩 
各 种 雅 达 利 游戏 的 方法 ， 包 括 玩 《太空 入 侵 者 》 和 《 打 砖 块 》 这 种 经 典 
游戏 的 方法 。DeepMind 让 他 们 的 程序 玩 了 数 百 万 局 游戏 之 后 ， 程 序 的 
游戏 水 平 通 常会 比 人 类 玩家 优秀 很 多 。 

















随后 ，DeepMind 回 观众 展示 了 计算 机 程序 玩 《 太 空 入 侵 者 》 的 一 
段 视频 ， 在 这 区 游戏 中 ， 玩 家 必须 移动 屏幕 底部 的 一 笨 宇 宙 飞 胎 来 射击 
外 星人 ， 阻 止 外 星人 降落 到 底部 。 图 7.1 分 别 是 《太空 入 侵 者 》 和 《 打 
砖 块 》 的 游戏 截图 ， 你 或 许 认 识 。 
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图 7. 1 DeepMind 智 能 体 玩 的 两 款 雅 达 利 游戏 : (a) 《太空 入 侵 者 》 和 (b) 《 打 砖 
块 》 


观众 全 神 贯 注 地 观看 独 计 算 机 程序 无 可 挑剔 地 玩 着 游戏 。 它 发 射 的 
每 一 枚 导弹 都 击 中 了 目标 。 随 着 一 局 游戏 接近 尾声 ， 只 剩 下 了 一 个 外 星 
人 。 当 外 星人 一 步 一 步 地 远离 导弹 ， 问 屏幕 右 侧 移动 时 ， 计 算 机 程序 发 
财 了 一 枚 偏离 轨道 的 导弹 。 房 间 里 的 人 们 稍微 松 了 口气 ， 或 许 这 个 人 工 
智能 终 完 还 是 威胁 不 到 人 类 的 生存 。 





然后 ， 观 众 继续 往 下 看 ， 只 见 外 星人 从 屏幕 的 一 侧 反弹 回来 ， 开 始 
癌 屏 幕 中 央 移 动 。 此 时 ， 程 序 的 策略 变 得 一 目 了 然 。 外 星人 直接 进入 了 
刚刚 射 仿 的 导弹 的 轨道 ， 然 后 被 摧毁 了。 计算 机 完美 地 局 了 一 局 游戏 。 
房间 里 爆发 出 一 阵 欢 呼 。 











为 什么 围观 的 谷歌 工程 师 如 此 兴奋 ? IBM 难 道 不 是 早 在 近 20 年 前 的 
1997 年 就 创造 了 “深蓝 ”， 击 败 了 世界 上 最 好 的 国际 象棋 棋 手 加 里 : 卡 斯 
由 罗 夫 吗 ?“ 沃 森 ” 难 道 不 是 在 2011 年 就 打败 了 《人 危险 边缘 》 的 冠军 肯 : 
詹 宁 斯 吗 ? 谷歌 的 工程 师 难 道 不 知道 他 们 的 自动 驾驶 汽车 已 经 在 道路 上 
行驶 了 近 70 万 英里 ?如 果 连 自动 驾驶 汽车 都 是 可 能 的 ， 那 为 什么 所 有 人 
都 对 计算 机 攻 死 一 亚 简 单 的 电子 游戏 喷 顺 称奇 ? 况且 此 时 ， 计 算 机 可 以 
高 水 平地 玩 电 子 游 戏 也 己 经 有 多 年 历史 了 。 





这 个 计算 机 程序 之 所 以 让 人 赞叹 ， 是 因为 它 学 会 了 在 没有 人 类 指导 
的 情况 下 玩 游 戏 。 而 早期 的 突破 需要 相当 大 程度 的 人 类 判断 力 和 对 算法 
的 调整 。 对 于 目 动 区 驶 汽车 ， 人 类 需要 精心 开发 探 调 可 行驶 地 形 的 功 
能 ， 然 后 告诉 汽车 可 以 在 哪 种 地 形 上 行驶 。 人 类 需要 在 目 动 驾驶 汽车 的 
富翁 棋盘 模块 中 手动 创建 有 限 状 态 机 。 目 动 驾驶 汽车 其 实 疝 未 在 反复 
试 错 中 学 会 如 何 目 动 行驶 。 














相 比 之 下 ， 程 序 员 从 来 没有 告诉 过 DeepMind 程 序 同 左 轻 拨 操纵 杆 
会 让 飞船 问 左 移动 ， 按 下 按钮 会 发 射 导弹 ， 甚 至 也 没 告诉 程序 同 外 星人 





发 射 导弹 会 摧毁 外 星人 并 赢得 积分 。 雅 达 利 游戏 智能 体 的 唯一 输入 是 屏 
幕 上 的 原始 像素 ， 即 它们 的 红 、 绿 、 蓝 三 色 ， 以 及 当前 的 得 分 。" 更 令 
人 赞叹 的 是 ，DeepMind 使 用 相同 的 程序 来 学 习 全 部 49 球 雅 达 利 游戏 ， 
无 须 任 何 手动 调整 。 对 其 中 大 多 数 游戏 ， 程 序 学 过 之 后 都 玩 得 很 好 。 程 
序 所 需要 的 只 是 练习 每 一 款 游戏 的 时 间 。DeepMind 通 过 一 种 叫 强化 学 
习 的 思想 实现 了 这 一 目标 ， 强 化 学 习 是 人 工 智 能 的 一 个 领域 ， 致 力 于 赋 
了 予 计算 机 程序 从 经 验 中 学 习 的 能 











1. 从 技术 上 讲 ， 这 个 分 数 是 经 过 调整 以 便 让 它 落 到 特定 范围 内 的 。 


强化 学 习 





在 本 章 和 下 一 章 中 ， 我 将 解释 DeepMind 如 何 使 用 强化 学 习 来 掌握 
这 些 雅 达 利 游 戏 。 三 使 用 这 种 技术 的 计算 机 程序 通过 得 到 偶然 的 奖励 或 
惩 避 来 学 习 做 事情 。 因 此 ， 要 训练 它们 ， 我 们 只 需要 对 它们 进行 编程 ， 
让 它们 寻求 这 些 激励 。 然 后 ， 当 它们 做 出 我 们 希望 它们 做 的 事情 时 ， 我 
们 就 给 予 它们 这 些 激励 。 就 像 当 你 给 宠物 狗 食 物 的 时 候 它 会 学 会 听从 命 
令 一 样 ， 通 过 强化 学 习 来 学 习 的 程序 〈 在 人 工 智 能 界 ， 指 代 这 种 程序 的 
术语 是 智能 体 ) 也 会 学 会 听从 你 的 命令 。 





强化 学 习 智 能 体 似 乎 太 智能 了 ， 不 可 能 是 自动 机 ， 但 是 ， 正 如 我 们 
将 在 接 下 来 的 两 革 中 看 到 的 ， 它 们 仍然 遵循 确定 性 的 程序 。 例 如 ， 经 过 
训练 的 雅 达 利 游戏 智能 体 玩 游戏 时 ， 只 需要 得 看 游戏 最 新 的 4 张 屏 幕 截 
Al OLEIT.20 。 在 看 过 这 些 屏 幕 堆 图 后 ， 筷 会 计算 一 个 数学 函数 来 选 
择 一 个 操纵 杆 动作 。 例 如 ， 同 左 、 同 右 ， 或 按 “ 开 火 ” 按 钮 。 然 后 ， 它 一 
人 裔 又 一 过 地 重复 这 个 过 程 ， 但 看 游戏 最 新 的 截图 ， 根 据 看 到 的 情况 选择 
一 个 动作 ， 直 到 游戏 结束 。 然 而 ， 正 如 你 可 能 猜 到 的 那样 ， 神 奇 之 处 并 
不 在 于 它 如 何 玩 游戏 一 一 我 刚才 解释 过 ， 玩 游戏 很 简单 。 真 正 的 神奇 之 
处 在 于 和 它 如 何 学 会 玩 游戏 ， 以 及 它 如 何 感知 屏幕 上 发 生 的 事情 。 在 本 章 
中 ， 我 们 将 从 第 一 个 问题 开始 : 一 个 智能 体 如 何 根据 其 过 去 的 经 验 来 学 
习 应 该 采取 哪些 行动 ? 
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图 7. 2 DeepMind 的 雅 达 利 游戏 智能 体 持 续 运 行 。 在 任意 给 定时 刻 ， 它 都 会 接收 最 新 
的 4 张 屏 幕 截 图， 将 像素 作为 输入 ， 然 后 它 会 运行 一 个 算法 来 决定 下 一 个 动作 并 输出 
动作 


我 将 用 一 个 虚拟 的 高 尔 夫 球 游戏 来 阐述 强化 学 习 的 工作 原理 。 我 们 
在 图 7.3《〈a) 所 示 的 球场 上 进行 游戏 ， 知 能 体 的 目标 是 用 尽 可 能 少 的 杆 
数 将 高 尔 夫 球 打 进 球 洞 。 我 们 感 兴趣 的 是 设计 一 个 智能 体 ， 当 它 在 高 尔 
夫 球 场 的 不 同位 置 时 ， 它 能 够 学 习 应 该 朝 哪 个 方 问 挥 杆 ， 应 该 脑 准 东 、 
南 、 西 、 北 哪个 方向 ， 才 能 让 球 更 接近 球 洞 。 为 了 教导 智能 体 ， 我 们 要 
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候 ， 无 论 在 球场 的 什么 位 置 ， 它 都 能 够 自主 选择 应 该 朝 哪个 方向 挥 杆 ， 
LEER J ERG BI XE o 





我 们 是 不 是 把 事情 搞 得 太 复杂 了 ? 真 的 需要 使 用 强化 学 习 来 告诉 知 
能 体 在 高 尔 夫 球场 上 昌 哪 里 挥 杆 吗 ? 难道 我 们 不 能 直接 对 智能 体 进行 纺 
程 ， 让 它 直 接 戎 球 洞 挥 杆 ? 正如 你 将 在 下 一 节 中 看 到 的 ， 这 个 选择 并 不 
可 行 ， 因 为 路 线 上 会 有 很 多 障碍 。 相 反 ， 智 能 体 需 要 根据 它 在 球场 上 的 
位 置 对 挥 杆 进行 细微 的 调整 。 强 化 学 习 不 仅 是 做 这 项 工作 的 工具 ， 它 还 
征 做 这 项 工作 的 唯一 工具 。 
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现在 ， 假 设 你 是 智能 体 ， 你 要 在 如 图 7.3 (a) 所 示 的 球场 上 打 高 尔 
夫 球 。 你 可 以 瞄准 任意 主要 方向 ( 东 、 西 、 南 、 北 ) 或 其 中 间 方 向 ( 东 
北 、 东 南 、 西 北 、 西 南 ) 挥 杆 。 如 果 你 击 球 成 功 ， 球 就 会 沿 着 你 瞄准 的 
方向 移动 一 个 小 方 格 ， 如 图 7.3 b) 所 示 ， 你 希望 用 尽 可 能 少 的 击 球 次 
数 把 球 打 进 球 洞 。 还 要 注意 的 是 ， 这 个 球场 很 大 ， 所 以 可 能 需要 大 约 
150 杆 才能 打 满 一 局 。 











(a) 强化 学 习 示例 中 的 高 尔 夫 球场 。 从 浅 灰 色 到 深 灰 色 的 地 形 类 型 依次 为 : RIG ( 指 球 洞 所 在 的 
草坪 ， 难 度 最 小 )、 球 道 、 长 草 、 沙 坑 、 水 坑 ( 难度 最 大 )。 起 点 在 左 人 出， 目标 在 右上 角 。 


(b) 你 的 目标 是 用 尽 可 能 少 的 杆 数 将 球 从 起 始 位 置 打 进 洞 中 ， 你 每 次 击 球 只 能 让 球 移动 一 个 小 方 
格 ( 或 原 地 不 动 )。 





图 7. 3 


还 有 两 件 事 会 让 这 个 高 尔 夫 球 游戏 变 得 有 趣 。 首 先 ， 也 是 最 重要 的 
征 ， 球 场 上 到 处 都 有 会 爆炸 的 地 雷 ， 如 图 7.3《〈c) 所 示 。 玩 游戏 的 时 
候 ， 你 知道 这 些 地 雷 的 位 置 ， 而 且 每 次 玩 的 时 候 它 们 都 是 固定 不 动 的 ， 
但 是 你 必须 不 惜 一切 代价 避免 踩 到 它们 。 


如 果 你 能 完美 地 瞄准 ， 地 雷 就 不 是 问题 ， 所 以 我 要 添加 最 后 一 个 规 
则 来 增加 游戏 难度 : 球 并 不 总 是 天 你 上 脑 准 的 方向 移动 。 有 时 它 会 停 在 劳 
边 的 男 一 个 方 格 中 ， 有 时 它 可 能 会 原 地 不 动 。 你 可 以 把 它 归 因 于 你 认为 
的 任意 因素 ， 可 能 是 风 ， 也 可 能 是 一 次 糟糕 的 挥 杆 。 当 你 挥 杆 时 ， 你 不 
知道 球 运 动 的 细节 ， 这 其 中 包含 了 一 些 随 机 性 ， 但 你 可 能 会 怀疑 ， 球 在 
艰难 的 地 形 《 比 如 长 草 区 ) 比 在 容易 的 地 形 《 比 如 果 岭 ) 上 更 难 打 ， 这 
些 都 是 你 需要 从 经 验 中 学 习 的 细节 。 地 形 类 型 从 最 容易 到 最 困难 依次 是 
果 岭 、 球 道 、 长 草 、 沙 坑 以 及 水 坑 。 如 果 把 球 打 到 水 坑 里 ， 你 就 浪费 了 
一 杆 ， 此 时 你 需要 在 球 落 水 前 的 位 置 重新 击 球 。 你 应 该 采用 什么 策略 ， 
用 尽 可 能 少 的 杆 数 把 球 打 进 球 洞 呢 ? 无 论 在 哪里 ， 你 都 应 该 直接 蚁 准 球 
ij? 如 果 需 要 穿 过 沙 坑 呢 ? 你 应 该 尝试 留 在 球道 和 果 岭 上 ， 以 此 尽量 
保持 对 球 的 控制 吗 ? 为 了 安全 ， 你 应 该 和 地 雷 保 持 多 远 的 距离 ? 
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这 些 问 题 的 答案 取决 于 很 多 因素 ， 但 即使 智能 体 没有 这 些 信 息 ， 我 
们 仍然 可 以 教 给 它 好 的 策略 ， 方 法 就 是 让 它 玩 一 段 时 间 ， 并 在 适当 的 时 
候 给 予 它 奖励 。 我 们 该 如 何 训练 智能 体 ? 当 它 到 达 终 点 位 置 CORRER 
场 尽 尖 的 球 洞 》 时 ， 游 戏 结束 ， 我 们 立即 给 它 一 块 巧 元 力作 为 奖励 价 
EKD 。 如 果 知 能 体 踩 到 地 志 ， 我 们 会 用 电击 惩 避 它 ， 相 当 于 减 去 半 
RIGGED CHHMBEZJ-1/2 。 如 果 智 能 体 踏 入 其 他 方 格 ， 就 既 不 奖励 也 不 
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我 们 需要 回答 一 个 更 有 趣 更 具 拉 术 挑 战 性 的 问题 ， 如 何 创 建 可 以 从 
这 些 奖励 中 进行 学 习 的 智能 体 ? 我 们 不 能 指望 只 给 智能 体 巧 元 力 就 能 让 
它 做 我 们 希望 的 事 。 我 们 还 要 让 它 知 道 巧 到 力 是 值得 追求 的 。 








有 两 个 观察 可 以 帮助 我 们 回答 这 个 问题 。 第 一 个 观察 涉及 我 们 如 何 
让 智能 体 存储 它 的 环境 模型 。 模 型 必须 能 总 结 智能 体 的 经 验 ， 使 其 可 以 
用 于 未 来 的 决策 。 我 们 让 智能 体 把 它 的 环境 模型 存储 在 一 个 巨大 的 数字 
立方 体 中 ， 如 图 7.4 所 示 。 
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图 7. 4 





这 个 立方 体 中 的 每 个 小 块 部 会 存储 一 个 数字 ， 该 数字 会 告诉 智能 体 
在 球场 不 同位 置 执 行 特 定 动作 时 可 以 抱 有 的 期 望 价值 ， 即 它 应 该 得 到 多 
少 块 马 元 力 。 每 当 智 能 体 需 要 决定 采取 的 动作 时 ， 它 都 会 得 看 当前 位 置 
的 所 有 8 个 可 能 动作 ， 这 些 动作 构成 了 贯 罕 立 方 体 的 一 扒 数值 ， 然 后 它 
会 选择 数值 最 高 的 动作 。 在 执行 一 次 动作 后 ， 知 能 体会 发 现 目 己 处 于 忆 
一 种 状态 (可 能 是 它 没有 预料 到 的 状态 ) ， 然 后 它 会 重复 同样 的 过 程 。 
如 果 了 立方体 已 经 被 填 入 了 正确 的 数值 ， 那 么 这 个 策略 似乎 是 可 行 的 ， 而 
且 非 第 简单 ， 我 们 甚至 可 以 用 物理 设备 对 它 进行 编码 ， 从 而 创建 一 台 机 
械 目 动机 。 但 这 仍然 回避 了 一 个 问题 : 我 们 如 何 确 定 在 立方 体 的 每 个 小 

















块 中 应 该 填 入 什么 数值 ? 


为 了 回答 这 个 问题 ， 我 们 就 需要 为 一 个 关键 的 观 紧 了 ， 这 个 观察 是 
关于 立方 体 中 的 数值 应 该 代表 什么 的 。 请 注意 ， 如 果 智 能 体 移动 到 不 是 
最 终 目 标的 状态 ， 那 么 它 束 不 会 得 到 巧克力 。 这 是 有 问题 的 ， 因 为 缺乏 
奖励 对 智能 体 而 言 没有 多 少 进步 感 。 我 们 可 以 说 ， 放 眼 一 望 ， 高 尔 夫 球 
场 上 交 励 的 布局 实在 太平 坦 了 。 如 条 智能 体 在 这 种 环境 中 盲目 地 追求 奖 
励 ， 那 么 它 很 难 取 得 进步 。 这 就 引出 了 我 们 设计 “强化 学 习 智 能 体 ” 所 需 
要 的 最 终 观察 结果 : 即使 智能 体 没 有 因 东 个 特定 状态 获得 巧 元 力 ， 它 仍 
然 有 机 会 最 终 因 那个 状态 得 到 巧克力 。 立 方 体 中 的 数值 至 少 应 该 直观 地 
体现 出 这 个 机 会 。 


























在 为 智能 体 设 计 这 种 机 会 的 概念 时 ， 我 们 想 要 的 一 个 特性 是 : 智能 
体 应 该 倾向 于 尽早 获得 巧克力 。 这 是 直观 的 感觉 ， 如 果 你 的 狗 在 房间 的 
另 一 边 ， 你 伸 出 手 喂 它 吧 东 西 ， 它 会 立刻 跳 到 你 身边 。 如 果 你 训练 过 你 
的 狗 做 一 些 特 技 ， 它 会 跑 过 来 打滚 儿 ， 甚 至 在 你 给 它 下 命令 之 前 就 开始 
表演 了 。 狗 的 这 种 行为 会 让 它 尽 快 得 到 奖励 。 如 果 狗 可 以 选择 是 立即 开 
始 表 演 ， 还 是 等 30 秒 之 后 再 开始 同样 的 表演 来 得 到 食物 ， 它 会 尽 一 切 努 
力 现在 就 得 到 食物 。 无 论 我 们 如 何 定义 这 个 机 会 的 概念 ， 都 希望 定义 中 
要 卓然 而 然 地 表现 出 这 种 倾 加 于 尽早 得 到 巧克力 的 偏好 。 

















我 们 可 以 将 这 个 机 会 的 概念 形式 化 一 一 再 次 重申 ， 机 会 是 我 们 希望 
由 立方 体 的 每 个 小 块 表示 的 价值 。 形 式 化 的 方法 是 将 其 定义 为 智能 体 可 
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低 。 这 种 时 间 调 整 的 效果 很 像 你 对 金钱 的 估价 。 比 方 说 ， 你 把 一 张 10 美 
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说 ， 你 今天 投入 10 美 元 ， 明 天 得 到 10 美 元 零钱 ， 你 可 能 不 会 认为 这 是 一 
笔 好 买卖 ， 因 为 你 已 经 放弃 了 在 这 上 段 时 间 里 花 这 些 钱 的 权利 ， 而 且 你 明 
天 是 否 能 收回 这 笔 钱 还 有 一 些 不 确定 性 。 所 以 ， 或 许 你 只 愿意 今天 往 机 
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就 更 不 愿意 投资 了 ， 或 许 你 也 会 愿意 投入 ， 比 如 说 ， 只 投入 6.4 美 元 。 

得 到 奖励 需要 等 待 的 时 间 越 长 ， 通 常 分 配给 奖励 的 价值 就 越 低 。 研 究 人 
员 把 这 种 想法 称 为 “时间 折扣 ”， 但 从 现在 起 ， 我 将 其 称 为 “时间 调整 ”。 





为 了 给 智能 体 编程 ， 让 它 去 寻找 得 到 巧克力 的 机 会 ， 我 们 需要 开 友 
一 种 方法 ， 估 算出 智能 体 在 采取 行动 时 期 望 得 到 的 巧 殉 力 总 数 ， 以 此 填 
充 立 方 体 的 每 个 小 块 ， 并 根据 未 来 得 到 每 份 巧 殉 力 所 需要 的 时 间 进 行 调 
整 。 三 立方 体 中 数值 更 高 的 动作 表示 有 更 大 、 更 早 、 更 频繁 的 巧克力 回 
报 ， 以 及 这 三 者 的 任意 组 合 。 而 数值 低 的 动作 则 意味 着 更 小 、 更 晚 、 更 
稀少 的 巧克力 回报 。 例 如 ， 处 于 茶 种 状态 的 智能 体 正面 临 看 选择 ， 一 种 
动作 提供 2.5 磅 三 巧克力 的 时 间 调 整 奖 励 ， 另 一 种 动作 提供 1.5 磅 巧克力 
的 时 间 调 整 奖励 ， 那 么 此 时 智能 体 应 该 选择 前 一 种 动作 。 




















当 智 能 体 末 取 的 大 多 数 动作 都 得 不 到 巧克力 时 ， 这 种 时 间 调 整 就 给 
了 它 遇 厦 球 调 前 进 的 机 会 。 这 就 把 智能 体面 对 的 平坦 布局 变 成 了 丘陵 布 
局 ， 而 奖励 就 在 一 座 丘 陵 的 项 上 。 智 能 体 实际 上 并 不 做 任何 复杂 的 规 
划 。 在 每 一 步 中 ， 它 只 需要 “ 顺 厦 梯度 ”努力 到 达 顶 端 。 


这 种 时 间 调 整 也 给 了 我 们 一 个 旋钮 来 调节 智能 体 。 这 个 旋钮 控制 着 
一 项 权衡 : 或 是 让 智能 体 寻求 立即 得 到 奖励 的 道路 ， 或 是 让 它 走 一 条 可 
能 会 推迟 奖励 的 道路 ， 寻 求 以 后 获得 更 大 的 奖励 。 通 常 ， 我 们 采用 这 种 
时 间 调 整 的 方法 是 ， 将 奖励 乘 以 介 于 0 和 1 之 间 的 茶 个 固定 数值 ， 这 个 数 
值 代表 智能 体 得 到 奖励 需要 等 竺 的 单位 时 间 《〈 例 如 ， 每 小 时 、 每 秒 钟 或 
BER) 。 这 个 乘 数 改 变 了 智能 体 看 到 的 奖励 布局 ， 控 制 着 智能 体 有 多 强 
的 意志 力 : 如 采 乘 数 接近 0， 智 能 体会 倾 癌 于 考 碟 尽 可 能 快 地 得 到 它 能 
得 到 的 巧 元 力 ， 即 便 这 意味 着 放弃 以 后 的 巧 珊 力 。 如 果 乘 数 接近 1， 智 
能 体会 愿意 放 茎 短期 的 巧 元 力 ， 而 倾 癌 于 以 后 得 到 更 多 的 巧 死 力 。 — 









































1. 在 这 里 ， 我 用 “期 望 * 这 个 词 是 表示 一 种 随意 的 意思 ， 但 我 实际 上 是 在 暗示 这 个 词 的 正 






































式 含义 : 我们 使 用 的 是 时 间 调 整 奖励 的 期 望 值 或 平均 值 ， 这 里 的 平均 值 代 表 了 在 给 定 不 
同 动作 的 状态 之 间 移 动 时 所 产生 的 随机 性 。 不 同 的 应 用 可 能 需要 不 同 于 预期 的 变量 ， 例 
如 时 间 调 整 奖励 的 最 高 中 位 数 。 

1 磅 >0.4536 干 克 。 一 一 编者 注 

优化 短期 奖励 有 时 是 一 种 非常 明智 的 行动 ， 例 如 ， 人 们 在 经 济 高 通胀 时 期 往往 会 这 
样 做 。 
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除了 不 吃 巧克力 之 外 ， 狗 和 DeepMind 的 雅 达 利 游戏 智能 体 之 间 的 
一 个 明显 区 别 是 ， 狗 生活 在 现实 世界 中 ， 而 雅 达 利 游戏 智能 体 生 活 在 模 
拟 的 虚拟 环境 中 。 雅 达 利 游戏 智能 体 不 会 像 狗 一 样 坐 看 或 乞求 食物 ， 它 
的 行动 局 限于 游戏 中 可 以 使 用 的 所 有 操纵 杆 动作 。 雅 达 利 游戏 智能 体 不 
征用 筷 的 眼睛 、 耳 汞 和 腊 子 来 感知 周围 的 环境 ， 而 是 必须 通过 观 罕 屏 和 幕 
上 的 像 系 并 品 等 我们 给 它 的 虚拟 美食 来 感知 它 的 环境 。 当 DeepMind 设 
计 智 能 体 时 ， 他 们 需要 茶 种 方法 将 游戏 中 发 生 的 事情 与 智能 体 所 感知 到 
的 事情 联系 起 来 。 他 们 如 何以 一 种 简明 、 连 贯 的 方式 做 到 这 一 点 ， 使 智 
能 体 易于 推理 ? 











对 DeepMind 而 言 ， 幸 运 的 是 ， 阿 尔 伯 塔 大 学 的 研究 人 员 创 建 了 一 
个 名 为 “街机 学 习 环境 ”(Arcade Learning Environment) 的 平台 ， 这 使 
DeepMind 能 够 让 智能 体 在 雅 达 利 游戏 世界 中 畅游 。 这 个 环境 建立 在 雅 
达 利 便 拟 郝 《〈 即 一 个 模拟 雅 达 利 游戏 机 行为 的 程序 ) 之 上 上， 直接 从 运行 
游戏 的 计算 机 内 存 中 提取 信息 。 三 通过 使 用 “街机 学 习 环境 ”， 
DeepMind 可 以 轻松 地 “得 找 ” 智 能 体 的 输入 ， 即 像素 和 当前 得 分 ， 将 它们 
作为 感知 输入 呈现 给 智能 体 ， 并 将 智能 体 的 命令 解释 为 操纵 杆 动作 发 送 
给 环境 。 于 是 , “街机 学 习 环境 ” 便 可 以 正确 处 理 模拟 的 雅 达 利 游 戏 世 界 
的 繁杂 细节 了 。 


1. David Churchill,Personal correspondence with author,2017;Marc G.Bellemare et al.,“The 
Arcade Learning Environment:An Evaluation Platform for General Agents,"Journal of Artificial 
Intelligence Research47(2013):253-279. 
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到 目前 为 止 ， 我 们 仍然 没有 有 具体 的 方法 来 填充 多 维 数据 集 〈 即 数字 
立方 体 ) 中 的 数值 。 我 们 知道 多 维 数据 集中 的 每 个 数值 都 应 该 表示 智能 
体 在 未 来 会 得 到 的 时 间 调 整 巧 元 力 的 数量 ， 并 且 我 们 知道 ， 要 创建 一 个 
智能 体 来 使 用 这 些 数值 ， 就 需要 对 乔 能 体 进行 编程 ， 让 它 无 论处 于 什么 
状态 都 会 选择 数值 最 高 的 动作 ， 但 是 我 们 还 不 清楚 如 何 计算 填 入 多 维 数 
据 集 的 数值 。 


如 果 我 们 有 关于 这 于 游戏 的 完美 信息 ， 例 如 我 们 在 球场 的 每 个 区 域 
阴 茶 个 方 同 击 球 的 可 能 性 有 多 大 ， 那 么 就 可 以 使 用 强化 学 习 领 域 的 一 些 
数学 公式 来 计算 整个 多 维 数据 集 的 数值 ， 而 无 须 让 智能 体 玩 游戏 。 但 是 
这 种 完美 信息 是 我 们 没有 的 奢侈 品 。 高 尔 夫 球 游戏 就 像 雅 达 利 游 戏 一 
样 ， 我 们 甚至 不 知道 在 完成 一 个 动作 后 ， 高 尔 夫 球 会 有 多 大 可 能 落 在 一 
个 不 同 的 状态 。 














DeepMind 解 决 这 个 问题 的 方法 是 ， 通 过 让 智能 体 反 复试 错 来 学 习 
多 维 数据 集中 的 数值 。 起 初 ， 智 能 体 选 择 完 全 随机 的 动作 ， 以 便 从 经 验 
中 了 解 哪 种 “状态 一 动作 对 ”往往 伴随 着 奖励 。 通 过 使 用 强化 学 习 中 的 一 
种 叫 离线 学 习 (off-policy learning) 的 技巧 ， 智 能 体会 学 习 到 很 好 的 游 
戏 策 略 ， 即 便 它 只 是 跌跌撞撞 地 随机 乱 走 。 然 后 ， 随 着 智能 体 获 得 经 
验 ， 它 会 开始 喜欢 非 随机 的 动作 。 

我 们 把 离线 学 习 算 法 应 用 到 高 尔 夫 球 游 戏 中 。 首 先 ， 我 们 让 智能 体 
玩 一 局 游戏 ， 让 它 每 次 需要 移动 时 都 选择 随机 动作 。 这 会 生成 一 系列 
的 “状态 一 动作 对 ”， 如 图 7.5 的 左 侧 框图 所 示 。 在 智能 体 玩 完 一 局 游戏 之 
后 ， 我 们 需要 使 用 智能 体 在 游戏 中 的 经 验 来 更 新 多 维 数据 集中 的 数值 。 


我 们 可 以 将 智能 体 的 经 验 分 成 几 个 组 块 来 总 结 ， 每 个 组 块 都 有 知 干 


信息 : 智能 体 在 选择 和 执行 一 个 动作 时 处 于 什么 状态 ， 选 择 哪个 动作 
(GE. ZRJE. ZRSSO . ， 在 执行 动作 后 最 终 处 于 哪 种 状态 ， 以 及 它 到 达 下 
一 个 状态 时 是 否 会 得 到 或 失去 巧克力 。 你 可 以 在 图 7.5 的 左 侧 框 图 中 看 
到 这 样 的 一 个 组 块 。 智 能 体 将 从 这 些 经 验 金 块 中 学 习 它 所 需要 的 一 切 。 








我 们 需要 一 些 方法 来 更 新 多 维 数据 集中 的 数值 ， 以 便 把 这 些 经 验 金 
块 具体 化 。 如 果 智 能 体 在 经 历 了 一 些 “ 状 态 一 动作 对 ”之 后 ， 最 终 到 达 了 
它 的 目的 地 〈 即 球 洞 )， 那 么 我 们 束 把 多 维 数据 集中 的 “状态 一 动作 
对 ”的 数值 稍微 回 奖 励 1 推 进 一 点 。 我 们 并 不 把 它 设置 为 1， 只 是 把 它 向 1 
稍微 推进 一 点 。 如 宋 一 个 “状态 一 动作 对 ” 通 同 球场 上 有 地 雷 的 位 置 ， 我 
们 就 把 “状态 一 动作 对 ”的 数值 向 -1/2 稍 微 推进 一 点 。 否 则 ， 我 们 就 让 “ 状 
态 一 动作 对 ”的 数值 向 0 接近 。 我 使 用 “推进 ”这 个 词 时 很 随意 ， 但 是 强化 
学 习 提 供 了 一 种 精确 的 数学 方法 来 调整 这 些 值 ， 它 与 这 个 词 的 直观 含义 
非常 吻合 。 

















这 足以 让 智能 体 了 解 在 动作 之 后 立即 看 到 的 奖励 。 但 是 请 记 住 : 我 
们 希望 多 维 数据 集中 的 数值 表示 出 未 来 所 有 的 时 间 调 整 奖励 流 ， 因 为 我 
们 希望 智能 体 选择 朝 奖 励 移 动 的 动作 ， 即 使 它 此 时 距离 奖励 很 远 。 我 们 
需要 一 些 方 法 来 估计 这 次 动作 后 智能 体 看 到 的 奖励 流 。 训 练 智 能 体 的 秘 
蜜 就 在 于 此 。 因 为 我 们 已 经 从 经 验 金 块 中 了 解 了 智能 体 在 选择 东 个 动作 
后 最 终 会 处 于 什么 状态 ， 所 以 恰恰 可 以 在 多 维 数据 集 本 里 中 但 看 这 个 信 
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2. 对 于 选 定 的 “状态 一 动作 对 ， 更 
1. 模拟 一 局 游戏 ， 生 成 一 新 智能 体 的 “状态 一 动作 对 ”多 
系列 “状态 一 动作 对 ”。 
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把 “状态 一 动作 对 ” 朝 着 未 来 的 时 间 调 
整 奖励 流 推 进 ， 更 新 “状态 一 动作 对 ” 
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为 下 一 个 状态 的 最 佳 动作 找到 时 间 调 
整 奖励 值 。 


图 7.5 训练 强化 学 习 智 能 体 的 一 种 方法 是 模拟 。 首 先 ， 智 能 体 通过 游戏 生成 一 系 

列 “ 状 态 一 动作 对 ”和 奖励 ， 如 左 侧 框图 所 示 。 接 下 来 ， 如 右 侧 框图 所 示 ， 我 们 利 

用 智能 体 经 历 过 的 “状态 一 动作 对 ”来 更 新 智能 体 在 给 定 状 态 下 采取 不 同行 动 得 到 
的 未 来 奖励 的 舍 值 。 这 种 特别 的 方法 有 时 被 称 为 时 序 差分 学 习 (temporal 


difference learning) 





更 确切 地 讲 ， 既 然 我 们 已 经 知道 智能 体 的 全 上 略 是 为 它 所 处 的 状态 选 
择 最 佳 动作 ， 那 我 们 残 可 以 确切 地 知道 聪明 的 智能 体 在 拥有 了 经 验 金 块 
之 后 会 采取 哪些 动作 。 因 为 根据 定义 我 们 可 以 知道 ， 多 维 数据 集 存储 了 
智能 体 的 下 一 次 动作 会 得 到 的 时 间 调 整 奖励 的 数量 ， 所 以 我 们 可 以 使 用 
该 信息 更 新 当前 的 “状态 一 动作 对 ”。 





因为 这 个 动作 (和 它 的 奖励 ) 是 迈 问 未 来 的 一 步 ， 所 以 对 智能 体 的 
未 来 动作 将 会 得 到 的 奖励 数量 ， 我 们 将 进行 时 间 调 整 ， 然 后 把 原来 
的 “状态 一 动作 对 ?” 朝 着 这 个 时 间 调 整 奖 励 的 数值 推进 。 为 了 训练 智能 
体 ， 我 们 将 对 鲁能 体 在 游戏 期 间 访问 的 状态 重复 这 个 过 程 ， 然 后 在 许多 
局 游戏 中 重复 这 个 过 程 。 











这 种 自我 参照 的 把 戏 可 能 会 在 你 的 脑海 中 融 啊 警钟 。 当 我 们 第 一 次 
开始 训练 智能 体 时 ， 多 维 数据 集中 的 数值 是 蝶 无 意义 的 。 再 加 上 鲁能 体 
从 选择 随机 动作 开始 ， 我 们 很 难 相信 它 能 够 学 习 到 好 的 集 略 。 无 用 的 输 
入 难道 不 等 于 无 用 的 输出 吗 ? 的 确 ， 多 维 数据 集中 的 数值 最 初 会 非常 灶 
糕 ， 我 们 最 初 对 多 维 数据 集 所 做 的 更 改 也 不 会 有 太 大 帮助 。 但 是 随 着 时 
间 的 推移 ， 学 习 的 质量 会 逐渐 所 高。 


在 摘 述 智能 体 如 何 填 充 和 使 用 多 维 数据 集 时 ， 我 对 其 中 隐藏 的 环境 
做 了 一 个 重要 的 假设 。 此 处 的 假设 是 : 在 预测 智能 体 的 未 来 时 ， 唯 一 相 
关 的 状态 是 智能 体 的 当前 状态 。 这 并 不 意味 着 它 过 去 的 状态 和 动作 无 关 
紧要 ， 它 们 对 于 使 智能 体 来 到 当前 状态 非常 重要 。 但 是 ， 一 旦 我 们 知道 
了 智能 体 的 当前 状态 ， 就 可 以 态 记 此 前 的 一 切 ， 因 为 我 们 假设 智能 体 的 
当前 状态 捕捉 到 了 与 预测 其 未 来 相关 的 所 有 历史 。 这 个 假设 通常 被 称 为 
马尔 可 夫 假 设 (Markovian assumption) 。 虽 然 很 简单 ， 但 马尔 可 夫 假 设 
使 我 们 能 够 用 连接 过 去 和 未 来 的 经 验 金 块 来 更 新 多 维 数据 集 ， 这 样 多 维 
数据 集中 的 数值 本 里 就 可 以 连接 过 去 和 未 来 。 这 就 是 为 什么 智能 体 每 玩 
一 局 游戏 ， 多 维 数 据 集中 的 数值 就 会 变 得 更 准确 。 多 维 数据 集中 的 组 块 
会 在 民 性 循环 中 得 到 改善 ， 它 们 从 “ 坏 ” 到 “好 ”进而 走 同 “完美 ”。 

















在 每 一 局 高 尔 夫 球 游戏 中 ， 智 能 体 访问 的 状态 序列 都 会 在 高 尔 夫 球 
场 上 形成 一 条 “轨迹 ”。 你 可 以 在 图 7.6 中 看 到 其 中 一 些 轨 迹 。 如 图 
7.6 (a) 所 示 ， 最 开始 ， 智 能 体 完全 随机 移动 ， 需 要 很 多 杆 才能 到 达 最 
后 的 球 洞 。 玩 过 几 局 游戏 之 后 ， 智 能 体 就 可 以 跌跌撞撞 地 向 球场 末 站 的 
球 洞 移动 了 。 然 而 ， 一 旦 玩 过 几 千 局 游戏 ， 它 束 会 精确 地 绕 着 地 雷 移 
动 。 如 图 7.6 b) 所 示 ， 你 可 以 看 到 ， 重 能 体 其 全 在 离 地 雷 很 远 时 就 预 
测 到 地 雷 ， 并 转向 避 开 了 它 。 在 智能 体 学 会 完美 的 全 上 略 之 后 ， 它 仍然 存 
在 一 些 问题 ， 比 如 它 无 法 避免 每 次 挥 杆 时 所 面临 的 随机 性 。 但 是 ， 乔 能 
体 用 了 一 种 不 同 的 方式 来 优化 目 己 ， 学 会 了 在 离 地 雷 很 远 时 就 预测 到 地 
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b) 


图 7.6 高 尔 夫 球 游戏 智能 体 的 移动 轨迹 (白色 路 径 ) 。 (a) 智能 体 玩 过 10 局 游戏 后 
的 移动 轨迹 。 (b) 智能 体 玩 过 3070 局 游戏 后 的 移动 轨迹 


用 强化 学 习 玩 雅 达 利 游戏 





我 在 本 章 中 描述 的 方法 是 在 实践 中 最 利用 的 强化 学 习 方法 之 一 。 在 
这 种 方法 中 ， 知 能 体 通 过 选择 不 同 的 动作 从 一 个 状态 移动 到 妃 一 个 状 
态 ， 当 智能 体 做 了 我 们 认可 的 事情 时 ， 我 们 就 给 它 巧 元 力作 为 奖励 。 当 
需要 执行 一 个 动作 时 ， 智 能 体会 参考 它 的 多 维 数据 集 。 它 查找 可 以 执行 
的 动作 ， 选 择 时 间 调 整 奖励 流 最 高 的 动作 ， 然 后 执行 这 个 动作 ， 从 而 移 
动 到 不 同 的 状态 ， 并 可 能 因此 获得 邦 一 个 奖励 。 当 想 要 训练 智能 体 时 ， 
我 们 可 以 让 它 玩 很 多 局 游戏 ， 然 后 使 用 它 的 经 验 金 块 来 更 新 它 的 多 维 数 
MR. 











用 这 个 多 维 数据 集 玩 高 尔 夫 球 游戏 是 可 行 的 ， 因 为 高 尔 夫 球场 中 有 
60x100=6000 个 状态 ， 而 多 维 数据 集中 有 6000x8=48000 个 单元 。 单 元 的 
数量 虽说 不 少 ， 但 也 没有 多 到 无 法 通过 让 智能 体 随机 移动 一 段 时 间 来 准 
确 估 计 这 个 多 维 数据 集中 的 数值 。 


不 幸 的 是 ， 如 果 想 要 得 到 一 个 可 以 玩 雅 达 利 游戏 的 智能 体 ， 那 么 我 
刚才 描述 的 方法 就 行 不 通 了 。 问 题 在 于 ， 对 玩 雅 达 利 游戏 的 智能 体 而 
， 它 的 多 维 数 据 集 要 比 我 们 玩 高 尔 夫 球 游戏 的 智能 体 大 很 多 个 数量 
级 。 





hill; 


正如 我 们 在 本 章 开 头 看 到 的 ，DeepMind 认 为 雅 达 利 游戏 中 的 状态 
是 过 去 4 张 屏 磋 截 图 中 的 屏幕 像素 的 排列 。"= 对 于 《太空 入 侵 者 》 这 样 
的 游戏 ， 多 维 数据 集 需 要 记录 数 万 亿 个 状态 。 三 我 们 用 来 估计 高 尔 夫 球 
游戏 多 维 数 据 集中 数值 的 方法 一 一 通过 随机 选择 动作 来 学 习 ， 行 不 通 
了 ， 因 为 我 们 需要 玩 太 多 局 游戏 才能 用 合理 的 数值 填 好 多 维 数据 集 。 








这 上 听 起 来 可 能 只 是 一 个 技术 问题 ， 但 它 是 一 个 非常 实际 的 限制 。 





即使 我 们 有 足够 的 时 间 填 充 多 维 数 据 集 ， 或 者 即使 我 们 只 需要 填充 多 维 
数据 集 的 一 小 部 分 ， 它 的 大 小 也 会 超出 计算 机 内 存 的 限制 。 大 多 数 雅 达 
利 游戏 的 多 维 数据 集 都 太 过 庞大 。 


DeepMind 需 要 一 些 其 他 方式 来 表示 我 们 放 入 多 维 数据 集中 的 信 
恩 。 他 们 求助 的 工具 是 神经 网 络 。 














1. 有 些 游戏 只 有 4 种 控制 ， 而 有 些 游戏 则 有 多 达 18 种 不 同 的 控制 组 合 。 

2. 假设 有 36 个 外 星人 和 至 少 3 个 “ 护 盾 ”， 对 太空 船 和 飞碟 位 置 的 描述 可 以 轻易 地 超过 5 位 
二 进 制 数字 ， 对 导弹 位 置 的 描述 也 可 以 轻松 超过 5 位 二 进 制 数字 。 这 是 236+3+5+5+5+… 
>1.8x1016 种 状态 。 

3. 以 每 秒 1 亿 次 评估 的 速度 计算 ， 学 习 每 种 状态 的 一 个 数据 点 就 要 花费 5 年 时 间 。 















































8 如 何 用 神经 网 络 攻克 雅 达 利 游戏 


神经 信息 处 理 系 统 


早 在 2014 年 谷歌 收购 DeepMind 之 前 ， 关 于 这 家 新 锐 研究 公司 的 消 
息 就 已 悄然 传 开 。 例 如 ， 在 2012 年 底 的 一 次 机 器 学 习 会 议 上 ， 
DeepMind 一 直 在 与 脸 书 和 谷歌 等 公司 激烈 竞争 ， 招 募 机 器 学 习 领 域 的 
人 才 。 三 与 会 者 了 解 到 ， 这 家 神秘 公司 的 创始 人 是 杰 米 斯 : 哈 萨 比 斯 ， 
一 位 沉静 朝 言 、 才 华 横 溢 、 雄 心 勃 勃 的 神经 科学 家 。 





在 这 场 名 为 “神经 信息 处 理 系 统 ”(NIPS) 的 会 议 上 ， 人 工 神 经 网 络 
是 讨论 的 主要 议题 之 一 。 人 们 的 兴奋 感 异常 明显 : 在 过 去 几 年 里 ， 这 一 
领域 的 突破 迅速 出 现 。 更 好 的 人 硬件、 庞大 的 数据 集 以 及 训练 这 些 网 络 的 
新 方法 的 融合 ， 突 然则 让 研究 人 员 能 够 创建 出 高 水 平 的 神经 网 络 架构 ， 
实现 几 十 年 前 的 人 们 梦 灾 以 求 的 壮举 。 特 别 是 2018 年 ， 多 伦 多 大 学 的 研 
究 人 员 创 建 了 一 个 神经 网 络 ， 让 计算 机 拥有 了 一 种 神奇 的 能 力 来 感知 照 
片 中 的 物体 。 





1. Liz Gannes,“Exclusive:Google to Buy Artificial Intelligence Startup DeepMind 
for$400M,”Recode.net,January26,2014. 


近似 ， 而 非 宛 于 


要 创建 玩 雅 达 利 游戏 的 智能 体 ， 我 们 需要 一 些 方法 ， 总 络 智 能 体 在 
每 个 可 能 的 状态 应 该 采取 的 动作 。 在 第 7 章 中 ， 我 们 了 解 了 状态 一 一 动 
作对 ?如 何 记录 这 些 数值 。 如 果 没 有 太 多 的 状态 和 动作 ， 这 种 方法 非常 
有 效 。 但 是 ， 当 我 们 有 海量 的 状态 《就 像 雅 达 利 游戏 那样 ) 时 ， 多 维 数 
据 集 就 会 变 得 非常 庞大 ， 我 们 无 法 在 合理 的 时 间 内 填 好 这 个 多 维 数据 集 
的 数值 。 














为 一 种 考虑 多 维 数据 集 的 方法 是 将 这 些 数值 视 为 定义 一 个 数学 函 
Bl: 


时 间 调 整 奖 励 =q (当前 状态 ,操纵 杆 动作 ) 


与 多 维 数据 集 一 样 ， 这 个 函数 会 告诉 智能 体 它 在 执行 某 一 动作 时 所 
期 竺 的 时 间 调 整 奖 励 流 ， 前 提 是 假设 智能 体 此 后 总 是 选择 最 好 的 动作 。 
如 果 知 能 体 知道 这 个 函数 ， 那 么 它 只 需要 针对 它 正 在 考虑 的 每 个 动作 和 
它 所 处 的 状态 计算 这 个 函数 ， 然 后 选择 函数 值 最 高 的 动作 。 在 强化 学 习 
中 ， 这 个 函数 被 称 为 动作 值 函 数 ， 或 简称 为 q 函 数 。 


q 函 数 的 问题 是 ， 如 果 我 们 想 让 它 完美 地 表示 多 维 数 据 集 ， 想 在 计 
算 机 上 编码 这 个 函数 ， 那 么 我 们 仍然 需要 大 量 的 磁盘 空间 来 存储 程序 。 
我 们 会 遇 到 与 最 初 的 多 维 数据 集 相 同 的 问题 。 


让 q 函 数 易 于 处 理 的 关键 是 认识 到 它 无 须 完美 。 多 维 数据 集 中 的 数 
值 有 很 多 相关 性 ， 就 像 网 飞 的 评分 窍 阵 中 的 数值 有 很 多 相关 性 一 样 。 与 
矩阵 分 解 一 样 ， 我 们 可 以 用 这 种 相关 性 来 简洁 地 描述 函数 。 例 如 ， 如 果 
你 位 于 高 尔 夫 球场 西部 ， 你 通常 需要 往 东 走 ， 如 果 你 位 于 球场 南部 ， 你 
通 第 需要 往 北 走 。 我 们 无 须 尝试 把 整个 多 维 数据 集 填 到 函数 中 ， 而 是 可 














以 用 一 个 简单 得 多 的 、 利 用 状态 和 动作 特点 的 函数 来 得 到 近似 q 函 数 的 
值 。 这 个 想法 是 创建 一 个 分 类 器 ， 它 与 我 们 曾经 用 来 制作 《世界 最 佳 儿 
童 食谱 》 的 分 类 器 完全 相同 。 只 是 我 们 不 是 对 食谱 进行 分 类 ， 而 是 
对 “状态 一 动作 对 ”进行 分 类 。 








对 于 儿童 食谱 ， 我 们 选择 了 直观 且 易 于 计算 的 特征 。 具 体 指 定 对 鸦 
达 利 游戏 智能 体 有 用 的 特征 很 困难 ， 因 为 这 些 特征 可 能 因 游 戏 而 寞 。 但 
古 在 更 高 的 层次 上 ， 我 们 希望 这 些 特征 能 够 简化 原始 状态 空间 ， 同 时 仍 
然 能 够 捕捉 对 玩 游戏 有 用 的 重要 信息 。 





对 于 qd 函数 ， 我 们 需要 一 些 比 简单 的 分 类 器 更 复杂 的 东西 。q 函 数 的 
形式 需要 足够 灵活 ， 以 便 可 以 很 好 地 近似 于 真正 的 多 维 数据 集 ， 这 意味 
着 它 应 该 能 够 表示 各 种 各 样 的 函数 。 与 此 同时 ， 我 们 必须 能 够 用 我 们 从 
模拟 中 搜集 的 经 验 金 块 来 “训练 *q 函 数 。 


神经 网 络 拥 有 我 们 所 寻求 的 特性 。 更 好 的 是 ， 它 们 提供 了 一 种 自动 
生成 特征 的 方法 ， 因 此 我 们 无 须 担 心 为 50 球 不 同 的 游戏 手工 设 定 特 征 。 
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元 组 成 。《〈 我 要 指出 的 是 ， 许 多 神经 网 络 研究 人 员 认 为 ， 仅 仅 因为 一 种 
方法 受到 生物 学 的 局 发 就 赞成 这 种 方法 ， 这 种 赞成 可 能 “充满 危险 "。 ) 








当 研 究 人 员 解 释 神 经 网 络 的 结构 时 ， 他 们 通常 会 画 一 幅 类 似 于 图 
8.1 的 图 。 








在 这 幅 神 经 网 络 示 意图 中 ， 每 个 加 代表 一 个 神经 元 ， 神 经 元 之 间 的 
箭头 代表 神经 元 之 间 关 系 的 权重 。 你 可 以 把 网 络 中 的 每 个 神经 元 视 为 一 
个 小 灯泡 ， 它 的 亮 灭 取 决 于 和 它 是 否 被 激活 。 如 果 筷 被 激活 ， 便 可 以 取 一 
系列 数值 。 它 可 能 会 发 出 微弱 的 光华 ， 也 可 能 格外 明 完 。 如 果 它 没 被 激 
活 ， 就 不 会 发 光 。 每 个 神经 元 小 灯泡 是 开 还 是 天 ? 如 果 是 开 ， 那 么 它 发 
的 光 有 多 亮 ? 这 全 都 取决 于 其 上 游 神经 元 的 亮度 ， 以 及 上 游 神经 元 和 这 
个 神经 元 之 间 的 连接 的 权重 。 











图 8.1 一 个 简单 的 神经 网 络 





一 对 神经 元 之 间 的 权重 越 大 ， 上 游 神经 元 对 下 游 神经 元 的 影响 就 越 
大 。 如 果 神 经 元 之 间 的 权重 为 员 ， 那 么 明亮 发 光 的 神经 元 便 会 抑制 它 指 
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你 可 以 在 图 8.2 中 看 到 ， 一 个 神经 元 的 值 如 何 依赖 于 上 游 神经 元 的 
值 。 你 可 能 会 立即 意识 到 这 张 图 让 人 感觉 很 熟悉 ， 每 个 神经 元 只 是 一 个 
简单 的 加 权 平 均 分 类 器 ， 它 拥有 一 个 能 以 茶 种 方式 压缩 分 类 器 的 输出 的 
函数 。 换 言 之 ， 整 个 神经 网 络 就 是 一 堆 连接 在 一 起 的 小 分 类 器 。 
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3. 非 线性 函数 


例如 max ( 0， 





图 8. 2 通过 神经 网 络 传播 数值 。 es 网 络 中 ， 一 个 神经 元 的 值 要 么 由 外 部 数据 决 
定 〈 也 就 是 说 ， 它 是 一 个 输入 神经 要 么 由 充当 它 的 输入 的 其 他 上 游 神经 元 的 
BRR, xay ALES XT a? s 上 游 神 经 元 的 值 通过 与 边 权 重 相 
乘 、 求 和 ， 并 通过 一 个 非 线性 函数 ， 例 如 max (x, 0) 、tanh OO 或 $ 型 函数 而 得 出 


为 了 使 用 神经 网 络 ， 我 们 通常 将 输入 神经 元 设置 为 特定 值 ， 例 如 让 





它 匹 配 图 像 中 的 像素 颜色 ， 每 个 像素 用 三 个 介 于 0 到 1 之 间 的 数字 表示 ， 
然后 我 们 运行 网 络 。 当 我 们 运行 网 络 时 ， 第 一 层 神 经 元 的 亮度 会 决定 下 
一 层 神经 元 的 亮度 ， 下 一 层 的 完 度 会 决定 再 下 一 层 的 亮度 ， 以 此 类 推 ， 
信息 流 经 网 络 ， 节 终 到 达 输 出 层 。 当 输出 神经 元 被 激活 时 ， 它 们 的 值 有 
望 被 用 于 茶 些 用 途 。 在 雅 达 利 游戏 智能 体 的 案例 中 ， 这 些 神经 元 会 告诉 
我 们 智能 体 应 该 采取 什么 动作 。 

















尽管 神经 网 络 受 到 了 生物 学 的 局 发 ， 但 它们 并 没有 什么 神秘 之 处 。 
和 输入 神经 元 的 亮度 会 准确 无 误 地 决定 网 络 中 其 他 神经 元 的 完 度 。 神 经 网 
络 只 是 用 来 计算 一 系列 数学 公式 的 复杂 的 计算 器 。 神 经 元 之 间 的 连接 决 
定 了 那些 公式 的 形式 ， 如 图 8.2 所 示 。 只 要 我 们 知道 神经 元 之 间 所 有 和 连 
接 的 权重 以 及 输入 神经 元 是 如 何 设置 的 ， 就 没有 不 确定 性 、 随 机 性 ， 也 
不 存在 能 决定 网 络 中 各 个 神经 元 是 否 会 发 光 的 魔法 。 神 经 网 络 就 相当 于 
一 台 计 算 机 ， 因 此 它 是 自动 机 的 主要 构件 。 











我 们 上 面 讨论 的 网 络 叫 前 馈 神经 网 络 ， 因 为 信息 从 输入 到 输出 是 单 
问 通 过 网 络 的 。 一 般 而 言 ， 神 经 网 络 的 每 一 层 中 可 能 有 不 同 数量 的 神经 
元 ， 它 的 层 数 可 能 也 会 不 同 ， 甚 至 可 能 还 没有 组 织 成 屋 ， 但 是 这 种 前 馈 
结构 仍然 很 常见 ， 而 且 DeepMind 正 是 用 它 来 玩 雅 达 利 游戏 的 。 





不 过 ， 让 我 们 先 回 过 头 想 想 ， 为 什么 要 劳 神 费力 地 使 用 神经 网 络 
呢 ? 我 们 是 不 是 把 事情 搞 得 太 复杂 了 ? 我 们 能 否 设 计 一 个 更 简单 的 近似 
于 qd 函 数 的 东西 ， 也 许 只 用 一 个 简单 的 分 类 器 ? 











如 采 我 们 的 目标 是 设计 一 个 只 玩 茶 一 区 特定 游戏 的 智能 体 ， 答 案 或 
许 是 肯定 的 。 我 们 可 以 精心 地 手工 设计 一 些 游戏 特征 ， 并 将 它们 与 加 权 
平均 分 类 需 结 合 起 来 。 但 这 样 做 无 法 让 我 们 旨 着 可 以 执行 各 种 任务 的 上 自 
动机 迈进 ， 而 开发 这 样 的 目 动机 才 是 DeepMind 了 最 初 设 计 雅 达 利 游戏 镶 
能 体 的 目标 之 一 。 请 回想 : DeepMind 的 智能 体 可 以 玩 大 约 50 种 不 同 的 
雅 达 利 游戏 ， 其 中 很 多 《但 不 是 全 部 ) 它 都 玩 得 很 好 ， 而 DeepMind 没 
有 对 这 些 游 戏 进 行 目 定义 调整 ， 它 只 是 让 智能 体 把 每 秋游 戏 都 玩 一 段 时 
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事实 证 明 ， 神 经 网 络 恰恰 提供 了 我 们 所 需要 的 灵活 性 ， 甚 至 像 上 面 
那样 简单 的 网 络 也 不 例外 。 神 经 网 络 的 一 条 重要 定理 一 一 万 能 近似 定理 
(universal approximation theorem) 指出 ， 如 果 使 用 像 图 8.2 那 样 输入 层 
和 输出 层 之 间 夹 着 一 个 中 间 层 的 网 络 ， 那 么 我 们 就 能 够 以 任意 精度 给 出 
近似 于 从 输入 到 输出 的 任意 函数 。 .三 这 是 一 条 深刻 的 定理 。 它 告诉 我 
们 ， 假 设 我 们 精心 选择 神经 网 络 的 权重 ， 神 经 网 络 就 可 以 在 给 定 屏 幕 像 
素 的 情况 下 指出 在 雅 达 利 游戏 中 可 能 采取 的 最 佳 动作 。 我 们 只 需要 创建 
一 个 结构 正确 的 网 络 ， 然 后 找 出 这 些 权 重 的 数值 即 可 。 这 就 给 我 们 带 来 
了 神经 网 络 的 另 一 个 主要 优点 : 它们 的 权重 很 容易 通过 数据 被 学 习 。 














我 在 图 8.3 中 展示 了 万 能 近似 定理 。 首 先 ， 请 看 图 8.3 GO 中 的 笑脸 
图 片 。 这 是 我 们 想 用 神经 网 络 * 预 测 ” 的 目标 。 图 8.3 中 的 其 余 图 片 显 示 了 
几 个 有 中 间 层 的 神经 网 络 近似 笑脸 目标 的 效果 。 输 入 和 输出 之 间 的 层 有 
时 被 称 为 隐藏 层 ， 因 为 我 们 不 直接 观察 它们 的 值 。 每 个 网 络 的 输入 层 是 
两 个 神经 元 ， 它 们 被 设置 为 图 像 中 每 个 像素 的 x 坐标 和 y 坐 标 。 每 个 网 络 
的 输出 是 一 个 神经 元 ， 它 描述 了 这 些 坐 标 处 的 像素 的 明暗 程度 : 0 代表 
黑色 ，1 代 表白 色 。 当 我 们 在 网 络 的 中 间 层 《〈 即 网 络 的 隐藏 层 ) 添加 更 
多 的 神经 元 时 ， 它 就 能 越 来 越 好 地 近似 笑脸 目标 。 图 8.3 Co 是 有 200 个 
隐藏 神经 元 的 神经 网 络 效果 ， 我 们 可 以 看 到 它 有 一 点 像 笑脸 ， 而 图 
8.3 Cd) 是 有 2000 个 隐藏 神经 元 的 神经 网 络 效果 ， 我 们 可 以 看 到 它 非 党 
像 笑脸 。 


这 种 有 一 个 隐藏 的 中 间 层 的 网 络 ， 是 我 们 可 以 用 来 表示 从 输入 神经 
元 到 输出 神经 元 的 任意 映射 的 最 “ 浅 ” 的 网 络 。 如 末 我 们 去 掉 中 间 层 ， 将 
输入 神经 元 直接 连接 到 输出 神经 元 ， 那 么 网 络 的 表现 力 就 不 会 那么 强 。 
此 时 我 们 近似 出 的 笑脸 形 如 一 个 灰色 的 方 框 ， 在 菏 个 方向 上 从 浅 灰色 渐 
变 到 深 灰 色 。 我 们 既 看 不 到 眼睛 也 看 不 到 嘴巴 。 因 此 ， 输 入 层 和 输出 层 
之 间 至 少 需要 一 个 隐藏 层 。 




















q (b) - 
& (d 3 
图 8. 3 通过 几 个 经 过 训练 的 神经 网 络 (b、c、d) 来 表现 目标 图 像 (a) 的 效果 。 该 


神经 网 络 以 图 像 中 每 个 像素 的 x 坐 标 、y 坐 标 作为 输入 ， 预 测 每 个 像素 在 0 到 1 范围 内 
的 亮度 


万 能 近似 定理 也 没有 说 明 网 络 的 中 间 层 必须 有 多 大 ， 才 能 像 我 们 硕 
望 的 那样 近似 笑脸 。 我 们 可 能 需要 亿 万 个 隐藏 的 神经 元 ， 来 表现 超出 人 
类 感知 极限 的 面孔 ， 就 像 我 们 可 能 需要 类 似 网 络 的 隐藏 层 中 有 数 百 万 个 
神经 元 来 玩 雅 达 利 游戏 一 样 。 这 个 观察 结果 对 于 我 们 构建 雅 达 利 游戏 智 
能 体 的 目标 非常 重要 ， 因 为 这 样 的 网 络 可 能 太 过 庞大 ， 无 法 被 存储 在 磁 
盘 上 ， 或 是 无 法 训练 数据 ， 就 像 最 初 的 多 维 数据 集 一 样 。 这 就 是 我 们 试 
图 把 所 有 这 些 信 息 都 放 进 一 个 隐藏 层 中 所 付出 的 代价 ， 但 这 并 不 意味 着 





我 们 无 法 设计 一 个 更 简单 的 网 络 ， 用 其 他 方式 玩 雅 达 利 游戏 ， 例 如 ， 使 
用 更 多 的 层 ， 每 层 的 神经 元 更 少 。 





在 我 们 为 雅 达 利 智能 体 构 建 网络 之 前 ， 我 们 需要 回答 两 个 问题 我 
们 应 该 选择 哪 种 结构 的 神经 网 络 ? 我 们 如 何 选 择 它 的 权重 ? 在 本 章 的 余 
下 部 分 ， 我 将 回答 这 些 问 题 ， 我 们 将 再 次 使 用 高 尔 夫 球 游戏 来 构建 网 
络 。 


1. Balazs Csanád Csáji,"Approximation with Artificial Neural Networks, "MSc thesis,Faculty 
of Sciences,Eótvós Loránd University, Budapest, Hungary,2001,24—48, accessed 
November12,2016,http://citeseerx.ist.psu.edu/viewdoc/download? 
doi=10.1.1.101.2647&rep=rep1&type=pdf. 从 技术 上 讲 ， 可 以 近似 的 函数 集 是 Rn 的 紧 子 集 上 
的 连续 函数 。 








雅 达 利 游戏 神经 网 络 的 结构 





在 图 8.4 中 ， 我 展示 了 一 个 专门 为 玩 高 尔 夫 球 游戏 设计 的 神经 网 
络 。 它 有 一 个 输入 层 获 取 知 能 体 的 当前 位 置 ， 一 个 输出 层 预 测 智能 体 应 
该 瞄准 8 个 方 癌 中 的 哪 一 个 ， 还 有 一 个 庞大 的 隐藏 层 。 





在 这 个 网 络 中 ， 我 们 把 输入 神经 元 的 值 设置 为 高 尔 夫 球 当 前 的 位 置 
坐标 。 当 我 们 运行 网 络 时 ， 输 入 神经 元 会 激活 中 间 隐 藏 层 的 神经 元 ， 然 
后 隐藏 层 的 神经 元 会 激活 输出 神经 元 。 我 们 希望 用 网 络 的 输出 值 近似 我 
们 在 上 一 章 看 到 的 多 维 数据 集中 的 值 。 给 定 球 的 位 置 ， 网 络 的 输出 值 应 
该 等 于 智能 体 在 选择 东 个 动作 时 期 望 得 到 的 未 来 的 时 间 调 整 奖 励 ， 即 未 
来 的 巧 元 力 数 量 。 一 旦 我 们 计算 出 这 个 网 络 的 权重 ， 智 能 体 就 能 根据 它 
在 球场 上 的 位 置 来 设置 网 络 的 输入 神经 元 ， 然 后 计算 网 络 以 生成 其 8 个 
动作 的 值 ， 选 择 权重 最 高 的 动作 并 执行 这 个 动作 ， 然 后 重复 这 个 过 程 ， 
以 此 来 选择 它 的 移动 。 





球 的 当前 位 置 操纵 杆 方向 





和 以 前 一 样 ， 我 们 只 需要 让 智能 体 衣 乱 摸 索 一 段 时 间 ， 这 样 我 们 惑 
可 以 利用 它 的 经 验 金 块 ， 在 适当 的 时 候 给 智能 体 奖励 巧克力 或 用 电击 和 您 
罚 它 。 我 将 在 下 一 章 中 解释 如 何 用 数据 “训练 ?神经 网 络 ， 但 是 现在 你 只 
需要 知道 这 是 可 能 的 。 因 为 万 能 近似 定理 告诉 我 们 ， 神 经 网 络 的 架构 是 
奏效 的 ， 我 们 已 经 在 图 8.3 中 笑脸 的 例子 里 看 到 了 它 的 效果 。 因 为 我 们 
从 坐标 开始 ， 所 以 网 络 不 需要 太 庞 大 ;， 它 只 需要 储存 表示 智能 体 移动 方 
加 的 8 个 不 同 的 映射 ， 每 个 映射 对 应 一 个 得 出 方 同 。 
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"3? 我 在 这 里 作 浆 了 ， 把 球 在 球场 上 的 坐标 作为 神经 网 络 输入 ， 而 没有 
使 用 表示 球场 的 像 系 。 这 很 容易 解决 : 我 们 可 以 通过 在 网 络 的 开始 添加 
更 多 的 层 来 把 原始 像素 转换 成 球 在 球场 上 的 坐标 。 这 将 是 我 们 创建 可 以 
玩 雅 达 利 游戏 的 神经 网 络 的 最 后 一 次 飞跃 。 








我 在 图 8.5 中 完成 了 这 个 过 程 。 这 个 网 络 的 右边 两 层 执行 我 们 在 上 
图 中 看 到 的 完全 相同 的 功能 ， 将 当前 位 置 转换 为 预测 巧克力 交 励 的 输出 
值 。 因 此 我 们 只 需要 让 自己 相信 ， 左 边 两 层 可 以 将 图 像 转换 为 高 尔 夫 球 
的 坐标 。 


这 两 层 是 怎么 做 到 的 ? 一 种 方法 是 使 用 卷 积 层 作 为 第 一 个 隐藏 层 。 
神经 网 络 的 郑 积 层 包 含 识 别 原始 输入 图 像 中 的 物体 (比如 球 或 球 洞 ) 的 
分 类 器 。 每 个 分 类 器 《在 本 例 中 ， 我 们 在 技术 上 只 需要 一 个 分 类 器 来 识 
别 球 的 位 置 ) 部 要 被 应 用 到 输入 图 像 中 每 8x8 的 像 系 块 上 。 这 一 层 的 输 
出 包含 每 个 分 类 器 的 一 个 图 像 。 每 个 输出 图 像 的 每 个 像素 都 是 将 分 类 器 
应 用 于 输入 层 中 相应 像素 块 上 的 结果 。 如 果 与 分 类 器 不 匹配 ， 结 果 则 为 
黑色 ， 反 之 则 为 白色 。 


在 图 8.6 中 ， 你 可 以 看 到 一 个 分 类 器 的 工作 原理 ， 它 显示 了 一 个 使 
用 3x3 像 素 块 而 不 是 8x8 像 素 块 的 卷 积 。 在 图 中 ， 分 类 器 预测 原始 图 像 中 
的 每 个 像素 块 是 否 与 某 个 模式 匹配 。 卷 积 层 生 成 与 输入 图 像 对 齐 的 图 
像 ， 并 描述 这 个 图 像 的 哪 一 部 分 与 过 滤 右 正在 查找 的 图 像 匹 配 。 
















球场 上 的 
当前 位 置 


操纵 杆 方 向 


图 8.5 为 高 尔 夫 球 游戏 设计 的 神经 网 络 。 右 边 两 层 ， 即 从 “球场 上 的 当前 位 
置 ” 到 “操纵 杆 方向 ”， 根 据 球 和 目标 的 当前 位 置 决定 智能 体 应 该 瞄准 哪里 ; 左边 
两 层 将 屏幕 的 像素 转换 成 坐标 


















































图 8. 6 有 两 个 过 滤器 的 卷 积 层 。 每 个 过 滤器 扫描 图 像 并 生成 一 个 结果 图 像 ， 图 像 中 
每 个 像素 都 对 应 于 通过 该 过 滤器 的 输入 图 像 的 一 个 像素 块 


这 些 分 类 器 是 如 何 工作 的 ? 每 个 分 类 器 只 是 一 个 加 权 平 均 分 类 器 ， 
类 似 于 我 们 在 《世界 最 佳 儿 童 食谱 》 中 使 用 的 分 类 器 ， 后 面 可 能 还 有 一 
个 压缩 函数 《在 接 下 来 的 几 页 ， 我 会 详细 介绍 这 个 函数 ) 。 请 记 住 ， 这 
只 是 神经 网 络 中 的 一 个 神经 元 而 已 。 卷 积 层 输出 的 每 个 像素 都 是 一 个 神 
经 元 ， 其 权重 对 应 于 分 类 器 的 权重 。 





为 了 更 形象 地 解释 这 个 过 程 ， 我 们 假设 高 尔 夫 球场 是 一 个 灰 度 图 


像 ， 我 们 使 用 上 一 章 中 的 球 洞 和 球 的 初始 位 置 。 图 8.7 Ca) 和 图 

8.7 (b) 分 别 显 示 了 区 分 图 7.3 a) 中 高 尔 夫 球场 上 的 旗杆 和 球 的 分 类 
器 的 权重 。 当 这 些 过 滤器 恰好 分 别 位 于 旗杆 或 球 的 正 上 方 时 ， 它 们 就 会 
激活 ， 即 生成 数值 1， 否 则 它们 会 生成 数值 0。 如 果 你 稍微 细 看 一 下 ， 束 
会 发 现 图 8.7 Ca) 中 的 过 滤器 显然 有 点 像 旗杆 ， 网 8.7 Cb) 中 用 于 区 分 
球 的 过 滤器 则 不 太 直 观 。 被 深 色 像 素 包 围 的 浅 色 像素 ， 这 才 是 球 的 定义 
特征 。 





这 些 艾 积 过 滤器 的 输出 是 两 幅 图 像 ， 每 幅 图 像 都 是 对 原始 图 像 应 用 
其 中 一 个 分 类 器 的 结果 ， 如 图 8.8 所 示 。 输 出 的 图 像 大 部 分 是 黑色 的 ， 
但 两 个 图 像 中 各 有 一 个 神经 元 发 光 ， 这 代表 过 滤器 在 此 处 从 输入 图 像 中 
找到 了 它 的 模式 。 


从 第 二 层 到 第 三 层 ， 我 们 只 需要 将 黑白 图 像 中 的 所 有 像素 映射 到 白 
色 像 素 的 坐标 上 。 网 络 并 不 知道 图 像 中 某 一 位 置 的 像素 周围 是 什么 ， 它 
只 是 把 每 幅 图 像 看 作 一 大 串 数 字 。 然 而 ， 网 络 可 以 看 足够 多 的 数据 ， 并 
将 每 个 神经 元 的 坐标 编码 到 权重 中 ， 以 此 来 学 习 从 每 个 像素 到 其 位 置 的 
映射 ， 如 图 8.9 所 示 。 








现在 事实 证 明 ， 基 后 一 步 ， 也 惑 是 将 卷 积 层 的 输出 转换 成 坐标 ， 对 
于 解释 网 络 中 发 生 的 事情 大 有 用 处 ， 但 这 并 不 是 网 络 工 作 必 须要 有 的 步 
又 。 因 为 在 把 球 的 位 置 转换 成 坐标 后 ， 我 们 没有 压缩 神经 元 的 值 ， 所 以 
从 数学 上 讲 ， 把 卷 积 层 的 输出 完全 连接 到 输出 前 的 最 后 一 层 隐 藏 层 ， 并 
设置 权重 来 解释 这 一 点 是 可 能 的 。 这 样 我 们 就 可 以 跳 过 中 间 层 ， 而 中 间 
层 完整 地 存储 了 球 的 坐标 。 

















(a) (b) 


图 8.7 区 分 (a) 球 洞 中 插 的 旗杆 和 (b) 高 尔 夫 球 的 卷 积 过 滤器 





图 8. 8 有 两 个 过 滤器 的 卷 积 层 。 过 滤器 是 扫描 输入 图 像 以 寻找 特定 模式 的 分 类 器 。 
每 个 过 滤器 的 输出 都 是 一 组 神经 元 ， 它 们 被 组 织 成 一 幅 图 像 ， 当 原始 图 像 中 的 像素 
块 与 过 滤器 匹配 时 ， 这 些 神 经 元 就 会 发 光 











图 8.9 将 卷 积 层 中 的 白色 像素 转换 为 坐标 的 层 。 此 图 中 ， 像 素 与 给 出 x 坐 标的 神经 元 

之 间 的 权重 等 于 该 像素 的 x 坐 标 ， 而 像素 与 给 出 y 坐 标的 神经 元 之 间 的 权重 等 于 该 像 

素 的 y 坐 标 。 如 果 左 边 层 中 在 坐标 (4, 3) 处 的 神经 元 亮 起 ， 值 为 1， 并 且 所 有 其 他 
神经 元 都 是 暗 的 ， 那 么 这 一 层 的 输出 值 将 反映 这 一 点 : 输出 结果 为 x=4 和 y=3 


由 此 ， 我 们 构建 了 一 个 本 质 上 与 玩 雅 达 利 游 戏 的 神经 网 络 类 似 的 网 
络 。 第 一 层 是 卷 积 层 ， 它 碍 找 屏 医 上 的 物体 ， 把 结果 压缩 到 0 和 1 之 间 。 
然后 ， 这 一 层 完 全 连接 到 具有 32 个 单元 的 隐藏 展 ， 然 后 是 另 一 个 压缩 函 
数 ， 它 的 结果 完全 连接 到 输出 层 ， 输 出 层 的 值 表示 智能 体 在 执行 不 同 动 
作 时 预期 得 到 的 时 间 调 整 奖励 流 。 








这 个 网 络 和 雅 达 利 游戏 智能 体 使 用 的 网 络 有 一 些 不 同 。 在 高 尔 夫 球 
游戏 中 ， 我 们 使 用 了 两 个 过 滤器 (我 们 只 需要 使 用 一 个 ) ， 但 是 雅 达 利 
游戏 智能 体 在 它 的 第 一 个 卷 积 层 中 使 用 了 32 个 独立 的 过 滤器 。 第 一 层 的 
和 输出 随后 被 放置 到 32 个 独立 的 图 像 中 ， 只 要 原始 图 像 与 相应 的 过 滤 需 匹 
配 ， 那 个 地 方 的 图 像 就 会 发 光 。 由 于 它 有 32 个 过 小 器 ， 它 可 以 搜索 各 种 
各 样 的 物体 ， 从 《乒乓 球 》 游 戏 中 的 球拍 到 《太空 入 侵 者 》 中 的 外 星人 
和 和 宇宙 飞船 。 你 可 以 在 图 8.10 中 看 到 如 何 使 用 儿 个 过 滤器 应 用 这 种 方法 


的 示例 。 





图 8. 10 雅 达 利 神 经 网 络 的 卷 积 层 。 第 一 层 显示 了 网 络 的 输入 : 游戏 的 屏幕 截图 GE 

达 利 网 络 实际 上 使 用 了 最 新 的 4 张 屏幕 截图 ) 。 第 二 层 是 卷 积 层 ， 使 用 32 个 过 滤器 在 

第 一 层 中 搜索 32 种 不 同 的 像素 模式 。 应 用 每 个 过 滤器 之 后 的 结果 是 32 幅 图 像 ， 除 了 
屏幕 截图 中 与 过 滤器 匹配 的 部 分 之 外 ， 图 像 的 其 他 部 分 都 接近 于 0 


此 外 ， 雅 达 利 游戏 网 络 还 比 高 尔 夫 球 游戏 网 络 拥有 更 多 的 卷 积 层 。 
这 些 层 推倒 在 一 起 ， 所 以 一 层 的 输出 驶 是 下 一 层 的 输入 。 较 新 版 本 的 网 
络 有 三 个 卷 积 层 ， 之 后 是 两 个 相同 的 全 连接 层 .三 。 通 过 使 用 三 个 卷 积 
层 ， 他 们 的 网 络 可 以 找 出 更 复杂 的 输入 图 像 模式 。 在 下 一 章 中 ， 当 研究 
深度 神经 网 络 如 何 准 确 解释 照片 的 内 容 时 ， 我 们 会 更 加 直观 地 了 解 为 什 
么 这 种 方法 会 奏效 。 





这 个 智能 体 的 架构 有 点 像 斯 坦 利 和 Boss。 你 可 以 把 图 8.11 的 雅 达 利 
游戏 智能 体 的 架构 与 图 4.2 的 Boss 的 架构 进行 比较 。 二 者 的 一 个 重要 部 分 
都 是 将 组 件 划 分 为 感知 层 和 推理 层 。 雅 达 利 游戏 智能 体 的 感知 部 分 是 神 
经 网 络 ， 它 把 屏幕 上 的 原始 像素 转换 为 游戏 环境 中 的 有 用 特征 。 雅 达 利 





游戏 智能 体 的 推理 部 分 不 过 是 一 个 程序 ， 它 不 断 碍 看 神经 网 络 的 输出 

值 ， 选 择 输出 值 最 高 的 动作 。 你 甚至 可 以 把 这 种 动作 选择 循环 解释 为 一 

种 非常 简单 的 “搜索 ”算法 ， 它 的 目标 是 从 8 个 动作 中 搜索 出 最 佳 动作 。 
游戏 学 习 环 境 感知 推理 


物体 检测 与 建 模 






动作 选择 器 


卷 积 神经 网 络 L 









操纵 杆 控制 


图 8. 11 雅 达 利 游戏 智能 体 的 架构 








1. 全 连接 层 是 指 每 个 节点 都 与 相 邻 层 的 其 他 节点 连接 的 层 。 一 一 译 者 注 











深入 研究 神经 网 络 


在 很 多 方面 ， 雅 达 利 游戏 都 是 DeepMind 展 示 神 经 网 络 优势 的 完美 
试验 台 。 雅 达 利 游戏 为 智能 体 提 供 了 明确 的 目标 函数 一 一 游戏 得 分 ， 同 
时 为 DeepMind 提 供 了 几乎 无 限 的 数据 来 训练 它 的 网 络 。 由 于 阿尔 伯 塔 
大 学 的 研究 人 员 开 发 了 “街机 学 习 环 境 ”，DeepMind 才 可 以 专注 于 开发 一 
种 能 玩 多 秋游 戏 的 智能 体 ， 而 这 正 是 “街机 学 习 环 境 ? 创 建 者 的 愿望 。 正 
如 我 们 将 在 第 9 章 看 到 的 ， 数 据 量 是 我 们 训练 复杂 神经 网 络 的 最 重要 因 
E iat 








我 们 至 少 已 经 在 高 层次 上 看 到 了 神经 网 络 在 玩 雅 达 利 游戏 时 的 情 
况 。 但 许多 问题 仍 未 得 到 解答 。 例 如 ， 雅 达 利 游戏 智能 体 什么 时 候 表现 
不 佳 ? 虽然 智能 体 使 用 相同 的 神经 网 络 结构 ， 即 三 个 卷 积 层 后 面 接着 两 
个 全 连接 层 ， 但 是 对 于 每 一 秋游 戏 ， 它 都 会 学 习 不 同 的 网 络 权重 。 经 过 
训练 后 ， 它 在 29 款 游戏 中 比 专业 人 类 玩家 玩 得 更 好 。 














与 人 类 相 比 ， 神 经 网 络 在 雅 达 利 的 《 弹 球 》 游 戏 中 表现 最 好 。 在 

《 弹 球 》 游 戏 中 ， 智 能 体 最 重要 的 任务 是 对 游戏 中 的 一 个 相对 较 小 的 部 
分 〈 即 挡 板 击 球 的 位 置 ) 做 出 反应 。 当 球 接近 屏幕 底部 时 ， 神 经 网 络 只 
需 快 速 准确 地 做 出 反应 即 可 。 该 游戏 还 允许 玩家 向 任意 方向 倾斜 弹 球 
机 ， 将 球 推 到 一 个 更 好 的 位 置 。 当 球 接近 屏幕 底部 时 ， 智 能 体 可 以 使 用 
这 种 倾斜 操作 完美 地 定位 球 的 位 置 。 因 为 这 个 网 络 可 以 学 习 运 动 ， 而 且 
能 以 机 器 的 精度 做 出 反应 ， 所 以 它 在 游戏 中 的 得 分 比 专业 人 类 玩家 高 出 
20f8. =! 





而 在 游戏 《蒙特 祖玛 的 复仇 》 中 ， 智 能 体 则 表现 糟糕 。 三 在 这 个 游 
戏 中 ， 玩 家 需要 探索 迷宫 般 的 地 下 阿 效 特 克 人 金字 塔 〈 想 想 带 梯子 的 《 超 
级 马里 奥 兄弟 》) 。 玩 家 在 不 同房 间 中 和 穿梭， 一 边 躲避 敌人 ， 一 边 寻 找 
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座 城 市 中 寻找 线索 和 物品 。 





这 两 亚 游 戏 都 涉及 探索 ， 这 需要 玩家 在 游戏 中 始终 注意 环境 。 玩 家 
必须 记 住 已 经 做 了 什么 、 没 做 什么 、 去 了 哪里 、 接 下 来 要 去 什么 地 方 。 
雅 达 利 游戏 智能 体 无 法 做 到 这 些 ， 因 为 它 没有 记忆 。 它 无 法 记录 访问 过 
哪些 房间 、 没 访问 过 哪些 房间 、 做 过 什么 、 没 做 过 什么 。 











它 玩 不 好 这 些 游 戏 还 有 为 一 个 相关 的 原因 。 还 记得 吗 ， 智 能 体 最 初 
古 通 过 选择 完全 随机 的 动作 进行 目 我 训练 的 。 而 采取 随机 动作 无 法 让 智 
能 体 在 需要 探索 的 游戏 中 取得 很 大 进展 。 在 《蒙特 祖玛 的 复仇 》 中 ， 智 
能 体 只 是 在 房间 里 走 来 走 去 ， 很 少 能 穿 过 迷宫 的 第 一 个 房间 。 由 于 无 法 
在 探索 中 取得 很 大 进展 ， 它 无 法 获得 足够 的 分 数 来 学 习 有 用 的 东西 。 稍 
后 我 们 将 看 到 智能 体 记录 游戏 状态 的 一 些 方 法 ， 但 我 现在 要 提醒 你 ， 我 
们 不 会 得 到 我 们 需要 的 所 有 答案 。 这 仍然 是 一 个 开放 的 问题 ， 也 是 强化 
学 习 研 究 人 员 的 一 个 活跃 的 研究 领域 。 














雅 达 利 游戏 智能 体 最 成 功 的 部 分 之 一 是 ， 它 能 通过 卷 积 神经 网 络 感 
知 世 界 。 与 此 同时 ， 相 对 较 新 的 深度 卷 积 网 络 在 过 去 几 年 迅速 发 展 成 
熟 ， 以 致 计算 机 分 类 照片 中 物体 的 能 力 已 经 超过 了 人 类 。 在 接 下 来 的 几 
章 中 ， 我 们 将 深入 研究 其 中 一 些 网 络 ， 以 便 更 好 地 理解 它们 如 何 做 到 这 
E 





















































1. 按照 这 个 评分 基准 ， 完 全 随机 的 智能 体 的 得 分 是 0 分 ， 人 的 得 分 是 100 分 。 
2. Volodymyr Mnih et alL,*Human-Level Control through Deep Reinforcement 


Learning," Nature518,no.7540(2015):529—533. 
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20164F, EIEH ale ， 几 家 初创 公司 已 经 开始 销售 
智能 聊天 机 器 人 作为 私人 助理 。 : so | Ee xe dr 
"Hh (Amy Ingram) ， 她 的 公司 推销 她 是 “能 为 你 安排 会 议 的 私人 助理 ”。 
你 只 需要 把 电子 邮件 抄 送 给 埃 米 ， 她 就 会 开始 其 神奇 的 表演 。 埃 米 “ 酷 
似 人 类 的 语调 ?和 "能 次 会 道 的 不 凡 谈 吐 ? 深 受 她 的 用 户 喜 欢 。 一 名 用 户 
说 她 “的 确 比 人 类 更 能 胜任 这 项 工作 ”。 有 些 男 人 甚至 想 和 她 约会 。 三 





在 深入 了 解 埃 米 的 工作 原理 之 前 ， 我 们 先 回顾 一 下 在 她 亮相 之 前 机 
器 学 习 的 发 展 趋势 。 在 2006 年 之 后 的 大 约 10 年 里 ， 计 算 机 识别 网 像 和 其 
他 媒体 内 容 的 能 力 得 到 了 显著 提高 ， 这 得 益 于 一 种 被 称 为 “深度 神经 网 
络 ” 的 技术 。 深 度 神经 网 络 就 像 是 我 们 在 上 一 章 中 看 到 的 网 络 ， 但 它 有 
很 多 层 。 从 某 种 程度 上 讲 ， 深 度 神 经 网 络 如 今 在 识别 照片 中 的 物体 方面 
比 人 类 更 胜 一 筹 ， 而 且 它 们 已 经 拥有 了 艺术 才能 ， 例 如 用 画笔 把 照片 绘 
制 成 < 画作 >”， 反 之 ， 对 于 一 幅 绘画 ， 它 们 还 能 创造 出 相片 般 有 逼真 的 泻 染 
效果 。 这 些 突破 是 许多 因素 ， 包 括 更 多 的 数据 、 更 好 的 人 硬件、 更 好 的 神 
经 网 络 结构 ， 以 及 训练 这 些 网 络 的 更 好 的 方法 带 来 的 。 


在 上 一 章 中 ， 我 们 学 习 了 将 神经 网 络 视 作 一 种 映射 ， 它 接受 一 些 输 
A CARIN) 并 产生 一 些 输出 (执行 操纵 杆 动作 的 数值 》。 这 与 
神经 网 络 可 以 成 为 目 动机 组 成 部 分 的 事实 是 一 致 的 ， 重 要 的 是 ， 从 输入 
到 输出 的 映射 是 固定 的 ， 神 经 网 络 没有 什么 不 可 思议 的 ， 也 没有 什么 不 
可 预测 的 。 恰 恰 相 反 ， 它 们 完全 可 以 被 预测 。 神 经 网 络 是 确定 性 函数 二 


， 是 由 网 络 中 的 人 工 神 经 元 进行 的 简单 操作 组 成 的 ， 只 要 我 们 仔细 观察 
神经 网 络 ， 就 会 发 现 它 们 其 实 是 分 类 丹 。 





我 们 还 了 解 到 ， 输 入 和 输出 之 间 有 一 个 隐藏 层 的 网 络 可 以 无 限 精确 
地 表示 任意 函数 ， 只 要 这 个 隐藏 层 足够 大 。' 找到 这 个 函数 只 需要 像 调 
节 旋 钮 一 样 调整 网 络 的 权重 ， 直 到 我 们 无 论 给 网 络 什么 输入 ， 它 都 能 得 
出 我 们 想 要 的 输出 。 正 如 我 在 上 一 章 中 提 到 的 ， 通 过 数据 训练 神经 网 
络 ， 它 就 可 以 自动 拟 合 这 些 权重 。 





这 时 ， 我 们 可 能 会 俘 下 来 问 上 自己 ， 这 两 个 事实 是 售 足 以 说 明 我 们 对 
神经 网 络 的 理解 已 经 足够 充分 ， 可 以 转向 下 一 话题 ? 我们 知道 ， 从 理论 
上 讲 ， 有 一 个 隐藏 层 的 神经 网 络 可 以 表示 任意 函数 ;我 们 还 知道 ， 通 过 
给 网 络 提供 足够 多 的 数据 来 训练 它 是 可 能 的 。 然 而 ， 这 就 足够 了 吗 ? 





我 将 在 下 面 的 例子 中 说 明 答 案 是 断然 否定 的 。 知 道 可 以 通过 训练 神 
经 网 络 来 识别 我 们 想 要 的 东西 仍然 无 法 揭示 重要 的 细节 ， 例 如 神经 网 络 
在 了 解 世界 时 的 内 部 表示 是 什么 样 的 ， 网 络 如 何 对 照片 中 的 物体 进行 分 
类 ， 以 及 什么 时 候 网 络 效 果 不 佳 ? 如 果 我 们 想 要 了 解 神经 网 络 和 它们 构 
建 的 自动 机 的 能 力 和 局 限 ， 那 么 了 解 这 些 细节 对 我 们 而 言 至 关 重 要 。 让 
我 们 暂时 把 话题 转向 一 个 著名 的 自动 机 ， 来 获得 一 些 更 具体 的 经 验 教 
训 ， 说 明 为 什么 这 是 真 的。 
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确定 性 函数 (deterministic functions) ， 表 示 输 出 值 完全 由 输入 值 决 定 的 函数 。 一 -一 
译 者 注 
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这 取决 于 某 些 形式 条 们 








FEF， 以 及 万 能 近似 定理 。 





际 象 棋 目 动机 “ 士 耳 其 人 ” 


在 添 康 松 发 明 长 笛 省 奏 者 的 几 十 年 后 ，1770 年 ， 有 人 发 明了 一 个 神 
秘 的 机 械 奢 置 。 和 长 箭 泪 卖 痢 一 样 ， 这 个 装置 是 一 人 台 目 动机 ， 它 的 外 形 
和 动作 都 酷似 芮 人 。 只 见 它 坐 在 一 张 书桌 劳 ， 被 劳 边 两 个 烛台 的 烟 包围 
着 。 尺 省 这 个 装置 是 机 械 的 ， 但 它 可 以 在 棋盘 上 表演 令 人 赞叹 的 绝 
技 “ 骑 士 之 旅 "。 它 用 戴 着 手套 的 手 拿 棋子 ， 手 被 固定 在 木 制 的 手臂 和 躯 
干 上 ， 它 可 以 用 符合 国际 象棋 规则 的 棋 步 让 “ 马 ” 从 任意 一 个 方 格 开始 移 
动 ， 不 重复 地 逐一 跳 过 棋盘 的 64 个 方 格 。 





更 令 人 喷 喷 称奇 的 是 ， 这 个 奇怪 的 装置 还 是 个 国际 象棋 高 手 ， 它 在 
对 局 中 战胜 了 绝 大 多 数 人 类 横 手 。' 


公众 对 这 个 装置 的 着 迷 程 度 甚 至 超过 了 长 笛 演 夺 者 。 他 们 慢 慢 地 了 
解 到 ， 这 个 装置 是 国际 象棋 目 动 机 ， 人 们 有 时 简单 地 称 它 为 “土耳其 
人 ”， 这 得 名 于 它 的 头饰 和 服装 。 三 装置 的 主人 把 它 带 到 欧洲 各 地 ， 甚 
至 美 训 新 大 陆 的 部 分 地 区 ， 进 行 公开 演示 ， 越 来 越 多 的 观众 敬 长 地 盯 着 
它 ， 对 它 的 机 械 秘密 感到 疑惑 不 解 。 它 甚至 在 巴黎 和 拿破仑 、 本 杰 明 : 
E E SURES SAE ATA HT Jo 


它 是 如 何 工 作 的 呢 ? 怀疑 者 猜测 里 面 藏 着 一 个 小 孩 ， 但 是 装置 的 主 
人 总 是 在 省 示 前 各 观众 展示 它 的 内 部 结构 。 随 独 操 作 员 一 个 接 一 个 地 打 
开 各 种 抽 层 ， 观 众 把 “土耳其 人 ”的 工作 台 内 部 看 得 一 清二 楚 ， 他 们 看 到 
了 为 装置 提供 动力 的 很 多 类 似 钟表 结构 的 复 洒 齿轮 ， 甚 至 昕 到 了 这 些 大 
轮 急 速 旋转 的 声音 。 这 一 切 都 是 一 位 机 械 天 才 设 计 的 ， 他 甚至 还 有 一 些 
模糊 的 想法 ， 想 要 制造 蒸汽 机 和 复制 人 类 语言 的 装置 。 当 操作 者 掀 
开 * 士 耳 其 人 ”的 长 袍 ， 露 出 它 的 后 背 时 ， 观 众 看 到 的 只 是 木头 和 此 轮 。 
这 个 木 人 肯定 不 是 穿着 戏 服 的 真人 。 三 更 让 人 困惑 的 是 ， 装 置 的 第 一 任 




















主人 展示 了 一 个 杞 材 似 的 小 盒 ， 声 称 这 是 闭 置 正常 运行 所 必需 的 ， 他 不 
时 地 往 里 面 颖 视 。 人 们 怀疑 这 个 小 盒 是 否 有 魔力 。 


随 着 《无 生命 的 理性 》 三 这 种 解读 此 类 现象 的 图 书 出 版 ， 人 们 
对 “土耳其 人 ”的 猜测 众说 纷 经 。 与 沃 康 松 同 法 国 科 学 院 分 享 其 装置 的 工 
作 原 理 不 同 ， 这 人 台 国 际 象棋 自动 机 的 历任 主人 始终 对 它 的 工作 原理 讳 贷 
如 深 。 


“土耳其 人 ”最 终 在 其 被 创造 出 来 的 84 年 后 被 一 场 大 火 吞 噬 。 尽 管 经 
历 过 多 年 的 猜测 ， 这 全 目 动机 的 秘密 在 它 的 一 生 中 从 未 被 完全 揭 开 。 两 
代 人 以 来 ， 它 一 直 是 个 未 解 之 谜 。 








“土耳其 人 ”被 毁 后 ， 它 的 最 后 一 任 主人 的 儿子 意识 到 再 没有 理由 保 
守 秘 密 ， 所 以 他 在 一 系列 文章 中 描述 了 这 人 台 机 器 。“ 土 吓 其 人 ”由 一 位 藏 
在 工作 台 里 的 专业 人 类 棋 手 操作 。 .三 它 只 是 一 个 巨大 的 木偶 而 已 ， 利 用 
误导 和 一 些 巧妙 的 机 械 结构 欺 驴 观众 ， 让 观众 误 认为 没有 人 操纵 它 。 装 
置 里 有 磁铁 ， 可 以 把 棋盘 上 的 信息 传递 给 藏 在 工作 人 台 里 的 木偶 操纵 者 ， 
里 面 还 有 一 个 滑动 座 椅 ， 当 机 械 师 在 对 局 前 打开 各 种 抽 届 时 ， 请 动 座 椅 
可 以 把 棋 手 移出 观众 的 视线 。 对 局 时 ， 棋 手 在 黑暗 的 书 时 里 借助 烛光 下 
棋 ， 而 蜡烛 的 烟 恰 好 又 被 烛 合 的 烟 所 拓 兰 。 神 秘 的 相 材 似 的 盒 于 和 齿轮 
发 条 除了 分 散 观 众 的 注意 力 之 外 蝇 无 用 处 。 这 完全 是 误导 ， 一 个 让 “ 士 
耳 其 人 ”看 起 来 像 是 被 其 他 力量 驱使 的 诡计 。 
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4. 《无 生命 的 理性 》 (Inanimate Reason) ， 由 卡尔 : 蕊 特 利 布 : 冯 : 温 迪 施 (Karl Gottlieb 






























































von Windisch) 写 于 1784 年 。 书 中 写 道 :“ 一 位 老 太 太 瑟 不 了 年 轻 时 听 到 的 故事 .…… 舱 在 
窗户 旁边 的 座位 下 ， 离 屠 卯 气 综 绕 的 机 器 远 远 的 。” 一 一 译 者 注 
5. 事实 上 ， 在 它 展 出 期 间 ， 多 位 国际 象棋 棋 手 都 操作 过 它 。 


























神经 网 络 中 的 误导 





拥有 神秘 机 械 结 构 的 “土耳其 人 ”的 例子 表明 ， 我 们 不 应 该 接受 “ 它 
因为 使 用 了 神经 网 络 而 可 以 工作 ”这 样 的 回答 ， 因 为 正 是 这 种 想法 让 人 
们 相信 了 “ 士 耳 其 人 *。 这 会 让 我 们 陷入 关于 人 工 智能 的 一 些 毫 无 根据 的 
炒作 之 中 ， 而 我 们 的 注意 力 完全 可 以 更 好 地 集中 在 更 有 前 景 的 突破 上 。 
更 糟糕 的 是 ， 这 种 粗心 大 意 的 想法 可 能 会 让 我 们 轻信 自己 每 天 仍 在 看 到 
的 骗局 ， 像 * 士 耳 其 人 "那样 的 骗局 。 例 如 ， 我 在 本 章 开头 描述 的 人 工 知 
能 聊天 机 器 人 埃 米 . 英 格 拉 姆 就 是 一 个 这 样 的 骗局 。 然 而 ， 如 果 你 看 一 
下 她 公司 广告 中 的 细则 ， 便 可 能 推断 出 ， 人 类 可 以 随时 介入 。 你 可 能 会 
称 之 为 “ 甜 密 营 销 "， 而 不 会 称 之 为 骗局 。 销 售 这 些 机 器 人 的 几 家 公司 利 
用 全 天 在 幕后 工作 的 人 控制 机 器 人 。 例 如 ， 埃 米 就 是 由 各 种 各 样 的 人 控 
制 的 ， 其 中 还 包括 一 个 名 叫 威 利 :卡尔 文 (Willie Calvin) 的 24 岁 的 小 亿 
$. 9 











确保 我 们 不 会 落 入 骗局 和 “甜蜜 营销 ”陷阱 的 方法 之 一 是 仔细 研究 这 
些 装置 《正如 我 们 将 在 接 下 来 的 几 章 中 所 做 的 那样 ) ， 并 坚持 要 求 它 们 
的 创造 者 明确 阐述 其 工作 原理 。 期 望 每 个 人 都 详细 了 解 这 些 事 情 是 不 现 
实 的 ， 人 们 都 很 性 ， 而 新 旧 上 自动 机 都 很 复杂 ， 它 们 背后 的 技术 也 在 快速 
变化 。 然 而 ， 在 这 种 情况 下 ， 我 们 仍然 可 以 坚持 要 求 科 学 或 工程 组 织 对 
这 些 闭 冒进 行 仔细 审查 ， 就 像 法 国 科 学 院 审 查 〈 然 后 接受 ) 沃 康 松 提交 
的 论文 一 样 。 在 其 他 情况 下 ， 例 如 ， 当 公司 为 了 合理 的 利益 而 保护 他 们 
的 知识 产权 时 ， 你 束 可 以 更 好 地 做 好 自己 判断 的 准备 。 








基于 上 述 原 因 ， 我 们 将 在 本 半 的 余下 部 分 着 重 深入 探讨 人 工 神 经 网 
络 ， 尤 其 是 深度 神经 网 络 工作 原理 中 的 一 些 细节 。 我 们 将 从 创建 一 个 可 
以 识别 狗 的 照片 的 神经 网 络 开始 。 接 下 来 的 几 章 会 涉及 一 些 细节 ， 但 我 
们 会 从 中 受益 菲 浅 ， 因 为 这 些 细节 可 以 让 我 们 更 好 地 理解 神经 网 络 能 做 





什么 ， 理 解 它们 如 何以 及 何 时 可 以 做 条 些 事情 。 


1. Huet,“The Humans Hiding Behind the Chatbots.” 


识别 图 像 中 的 物体 


我 们 想象 一 下 ， 你 已 经 设计 好 了 你 的 神经 网 络 ， 准 备 训练 它 识 别 狗 
的 照片 。 训 练 神经 网 络 的 过 程 就 像 强 化 学 习 一 样 ， 会 让 人 联想 到 用 食物 
训练 宠物 。 首 先 ， 我 们 选择 我 们 想 让 网 络 理解 的 图 片 。 这 个 “训练 样 
例 ” 便 是 一 张 我 们 希望 神经 网 络 记 住 的 照片 ， 上 面 可 能 有 狗 ， 也 可 能 没 
有 狗 。 为 了 让 网 络 理解 这 个 训练 样 例 ， 我 们 首先 需要 对 样 例 进行 数字 编 
码 。 这 样 ， 我 们 便 可 以 用 数字 表示 出 图 片 中 每 个 像素 的 颜色 ， 以 此 描述 
图 片 。 因 为 每 个 像素 有 三 种 原色 〈 红 、 绿 、 蓝 ) ， 所 以 300x200 的 图 片 
要 用 180000 (300x200x3) 个 数字 表示 。 





一 旦 我 们 把 网 络 的 输入 神经 元 设置 成 这 些 数字 ， 就 可 以 运行 网 络 ， 
让 神经 元 通过 网 络 传播 信息 。 它 们 会 一 层 一 层 地 激活 《或 者 不 激活 ) ， 
直到 在 末端 产生 一 个 输出 。 





在 上 一 章 中 ， 我 们 把 神经 网 络 中 的 神经 元 想象 成 关闭 或 打开 的 小 灯 
泡 ， 当 它们 的 激活 水 平 更 高 时 ， 小 灯泡 会 变 得 更 完 。 一 旦 网 络 运 行 ， 网 
络 中 的 一 些 神 经 元 就 会 变 蜡 ， 而 另 一 些 则 会 发 光 ， 有 些 可 能 会 非常 明亮 
地 发 区。 通常 ， 我 们 最 关心 的 是 网 络 输出 层 的 神经 元 有 多 亮 ， 因 为 这 些 
神经 元 代表 了 我 们 想 要 预测 的 东西 。 由 于 我 们 正在 训练 网 络 识别 狗 的 图 
请， 于 是 假设 输出 层 恰好 只 有 一 个 神经 元 ， 我 们 称 之 为 “ 狗 神 经 元 ”"。 如 
条 这 个 神经 元 明亮 发 光 ， 我 们 就 说 网 络 认 为 图 片 中 有 狗 ， 而 如 果 神 经 元 
是 瞳 的 ， 那 么 网 络 则 认为 图 片 中 没有 狗 。 如 果 它 介 于 二 者 之 间 ， 昌 然 发 
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HSI Ma RUA Pe ad, Boll Vc BORE h 
度 与 我 们 的 训练 样 例 标签 进行 比较 ， 样 例 的 标签 告诉 了 我 们 照片 中 是 否 
真 的 有 狗 。 接 下 来 ， 我 们 对 训练 样 例 标 签 进行 数字 编码 :; 如 果 图 片 中 有 











A, MWA; WRIA, WJ7O. DUE, BRS mA THER GFF H. 
标签 是 1， 或 者 神经 元 是 上 暗 的 并 且 标 签 是 0， 那 么 网 络 束 是 正确 的 ， 否 则 


就 不 正确 。 然 后 ， 我 们 创建 一 条 新 消息 ， 描 述 网 络 预测 的 误差 有 多 大 ， 
并 通过 网 络 反 回 传播 这 条 消息 ， 束 像 调 节 小 旋钮 一 样 调整 神经 元 之 间 的 


权重 ， 以 便 网 络 下 一 次 的 啊 应 可 以 稍微 好 一 点 。 当 网 络 完全 正确 或 大 部 
分 正确 时 ， 我 们 仍然 会 返回 信息 并 调节 旋钮 ， 但 不 会 进行 太 大 的 调整 。 





起 初 ， 网 络 通常 是 错误 的 。 它 会 随机 猜测 。 但 随 独 时 间 的 推移 ， 网 
络 会 变 得 越 来 越 准 确 。 在 训练 网 络 很 长 一 段 时 间 后 ， 我 们 会 越 来 越 少 地 
调整 它 的 权重 ， 这 惑 像 你 的 收音 机 接近 你 想 要 的 音量 的 时 候 ， 你 只 需 微 
调 音量 旋钮 。 

















简 而 言 之 ， 这 就 是 许多 标准 神经 网 络 的 训练 方式 。 这 种 方法 虽然 简 
单 ， 但 直到 20 世 纪 七 八 十 年 代 才 和 被 人 们 发 现 并 充分 理解 ， 而 神经 网 络 此 
前 已 经 存在 了 几 十 年 。 三 很 显然 ,，“ 我 们 ?在 这 里 没 做 太 多 工作 。 计 算 机 
为 我 们 完成 了 所 有 艰苦 的 工作 ， 我 们 只 需要 为 网 络 提供 尽 可 能 多 的 训练 
样 例 。 二 如 果 我 们 拟 合 网 络 对 图 像 进 行 分 类 ， 束 要 用 一 个 接 一 个 的 图 像 
重复 这 个 过 程 ， 直 到 网 络 不 再 改进 。 三 只 要 有 足够 多 的 数据 和 足够 大 的 
网 络 ， 我 们 就 可 以 训练 神经 网 络 去 识别 任何 我 们 想 让 它 识别 的 东西 。 








如 果 你 尝试 只 用 几 张 家 中 宠物 狗 的 照片 和 你 去 苏格兰 旅行 的 照 厂 训 
练 你 的 神经 网 络 ， 效 果 就 不 会 很 好 。 更 有 可 能 的 是 ， 网 络 会 学 到 一 个 简 
单 的 规则 ， 例 如 看 到 你 房间 的 磊 色 束 会 预测 出 照片 中 有 狗 ， 而 看 到 图 像 
中 有 大 片 的 绿色 束 会 预测 出 照片 中 没有 狗 。 原 因 就 在 于 上 一 段 中 提 到 的 
一 句 至 关 重 要 的 话 : 只 要 有 足够 多 的 数据 和 足够 大 的 网 络 。 一 切 都 取决 
Tu. 





1. Yann LeCun, Yoshua Bengio,and Geoffrey Hinton, "Deep Learning,"Nature521(2015). 

2. 学 术 界 以 及 微软 、 谷 歌 和 脸 书 等 公司 的 研究 人 员 已 经 将 各 种 工具 组 合 在 一 起 ， 这 使 
程序 员 设 计 和 训练 网 络 变 得 更 简单 ， 你 无 须 担心 这 种 技术 (有 反 向 传播 ) 背后 的 数学 原 
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3. 更 常见 的 是 一 次 处 理 成 批 的 图 像 。 








过 度 拟 合 


拟 合 神经 网 络 最 大 的 挑战 之 一 是 ， 如 果 网 络 过 于 灵活 ， 或 者 没有 足 
够 多 的 数据 来 训练 模型 ， 那 么 我 们 可 能 会 训练 出 这 样 一 个 模型 ， 它 可 以 
很 好 地 解释 训练 样 例 ， 但 不 能 解释 其 他 未 见 过 的 样 例 。 我 们 在 第 6 草 “ 网 
公司 的 百 万 美元 大 奖 ” 的 例子 中 就 看 到 了 同样 的 问题 ， 这 种 风险 被 称 
为 过 度 拟 合 。 过 度 拟 合 在 实践 中 又 是 什么 样 呢 ? 














在 图 9.1 (a) 中 ， 我 展示 了 一 小 部 分 数据 样本 。 此 时 ， 它 们 只 是 坐 
标 系 中 的 一 个 个 把 〈 显 示 输 入 、 输 出 )。 假 设 我 们 想 为 这 些 点 建立 一 个 
模型 ， 即 给 定 输入 值 ， 产 生 预 估 的 输出 值 。 这 正 是 拟 合 神 经 网 络 时 所 做 
的 事情 : 拟 合 一 个 模型 来 预测 不 同 输入 值 的 输出 值 。 图 9.1 Cb) 是 我 拟 
合 出 的 这 些 后 的 模型 。 模 型 是 一 条 曲线 ， 它 穿 过 或 接近 许多 把 。 根 据 这 
个 曲线 模型 ， 你 可 以 看 到 模型 对 每 个 输入 值 的 预测 ， 包 括 对 我 们 在 训 经 
中 看 到 的 输入 值 和 许多 在 训练 中 没 看 到 的 数值 。 











但 是 这 个 模型 存在 一 个 问题 : 尽管 它 很 好 地 匹配 了 训练 数据 ， 但 它 
不 太 可 能 很 好 地 解释 新 数据 。 该 模型 太 复 淋 了 。 它 对 数据 做 了 太 多 的 假 
设 ， 所 以 它 曲 曲折 折 、 上 下 起 伏 。 过 度 拟 合 会 产生 问题 ， 因 为 它 可 能 对 
数据 做 出 不 合理 的 假设 ,例如 “照片 中 有 大 片 的 绿色 意味 着 照片 中 没有 
狗 ”。 我 们 还 没有 证 据 表 明 更 简单 的 模型 不 会 更 好 ， 也 没有 足够 多 的 数 
据 来 适应 复杂 的 模型 。 如 宋 我 们 不 遵循 奥 卡 姆 剃刀 原则 ， 那 就 是 我 们 的 
政 忽 大意 。 奥 卡 姆 剃刀 原则 告诉 我 们 ， 应 该 青睐 最 简单 的 模型 ， 因 为 我 
们 的 数据 没有 令 人 信服 的 证 据 文 持 更 复杂 的 模型 。〈 我 的 一 位 语言 学 教 
授 曾 简洁 地 把 奥 卡 姆 刹 刀 原则 解释 为 “保持 简 早 ， 保 持 患 一 ”"。) 
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图 9.1 图 解 过 度 拟 合 : (a) 我 们 想 要 建立 的 模型 的 样本 点 《显示 输入 、 输 出 ) :; 
(b) 这 些 点 的 复杂 的 过 度 拟 合 模型 〈 曲 线 ) ; (o) 这 些 点 的 线性 模型 (直线) ; 
(d) 这 些 点 的 虽 复 杂 却 不 过 度 拟 合 的 模型 〈 略 微 弯曲 的 线 ) 





避 倪 过 度 拟 合 问 题 ， 最 常见 的 方法 有 两 种 : 一 是 使 用 更 简单 的 模 
型 ， 即 使 用 可 调 旋钮 较 少 的 模型 ， 如 图 9.1(c》 所 示 ; 二 是 把 更 多 的 数 
据 用 于 复杂 模型 ， 如 图 9.1《〈d) 所 示 。 上 述 两 种 方法 的 结合 也 是 可 以 
的 。 正 如 你 所 看 到 的 ， 当 有 很 多 数据 的 时 候 ， 我 们 发 现 的 模型 看 起 来 更 
像 一 条 直线 ， 这 证 实 了 我 们 的 预感 ， 曲 线 模型 确实 过 度 拟 合 了 数据 。 


神经 网 络 特别 容易 出 现 这 种 过 度 拟 合 问题 ， 因 为 网 络 中 的 神经 元 之 
间 可 能 有 数 十 亿 个 连接 ， 因 此 就 有 数 十 亿 个 可 调 的 旋钮 。 三 如 果 没 有 大 
量 的 照片 训练 网 络 找到 狗 的 照片 ， 那 么 你 很 可 能 会 过 度 拟 合 神经 网 络 。 
研究 人 员 通 常 把 上 文 所 到 的 两 种 方法 结合 起 来 解决 这 个 问题 ， 使 用 可 调 
旋钮 较 少 的 网 络 ， 并 使 用 尽 可 能 多 的 数据 。 现 在 ， 我 们 开始 探索 这 两 种 
方法 ， 先 从 获取 大 量 数据 开始 。 


1. LeCun et al.,“Deep Learning.” 
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训练 神经 网 络 的 第 见 照 片 来 源 之 一 是 网 络 ， 但 不 兽 的 是 ， 网 络 上 的 
大 多 数 照片 都 没有 被 明确 标注 过 。 使 用 这 样 的 数据 训练 神经 网 络 是 可 能 
的 ， 但 是 一 般 而 言 ， 被 明确 标注 过 的 图 片 更 好 。 





我 们 首先 了 解 一 下 他 飞 飞 。 李 飞 飞 是 斯 坦 福 大 学 的 一 位 精力 充沛 
的 、 专 注 于 机 器 学 习 和 计算 机 视觉 的 教授 (她 还 曾 加 入 谷歌 ， 领 导 谷 歌 
云 的 人 工 智 能 工作 ) 。 李 飞 飞 之 所 以 出 名 ， 在 一 定 程度 上 是 因为 她 制作 
了 大 量 标注 民 好 的 图 片 集 ， 这 些 图 片 集 可 以 用 来 训练 计算 机 理解 图 片 ， 
并 评估 计算 机 理解 图 片 的 能 力 。 她 开始 这 项 工作 时 ， 正 在 开发 一 种 算 
法 。 为 了 训练 和 评估 这 个 算法 ， 她 和 她 的 同事 翻阅 词典 ， 寻 找 附 有 插图 
的 条 目 来 搜集 图 片 。 她 和 她 的 同事 找到 了 可 以 作为 物体 类 别 的 101 个 不 
同 的 条 目 ， 此 时 他 们 使 用 谷歌 图 片 搜索 从 每 个 类 别 中 寻找 尽 可 能 多 的 图 
片 。 最 后 他 们 搜集 到 大 约 9000 张 图 片 ， 研 究 人 员 可 以 用 这 些 图 片 来 训练 
和 评估 自己 的 算法 。\3/ 











认识 到 这 些 数据 的 巨大 用 处 后 ， 至 飞 飞 和 她 的 学 生 在 接 下 来 的 10 年 
里 开始 了 一 个 更 加 雄心 动 懿 的 项 目 : ImageNet( 意 为 “图 片 网 ”) 。 她 和 
她 的 同事 再 次 使 用 谷歌 图 片 搜 索 搜集 了 各 种 类 别 的 图 片 ， 他 们 不 断 调整 
得 询 ， 并 用 不 同 的 语言 发 起 查询， 以 获得 更 多 种 类 的 网 片 。 三 在 此 之 
后 ， 她 和 她 的 研究 团队 得 到 了 数 以 百 万 计 的 图 片 ， 但 有 些 图 片 与 预期 的 
类 别 并 不 匹配 。 例 如 ， 如 果 我 在 谷歌 图 片 搜 索 中 搜索 “ 皮 
WE? Ckayak) ， 其 中 一 个 结果 是 旅游 网 站 Kayak.com 的 商标 ， 而 我 想 要 
的 是 用 于 沿 河 旅 行 的 小 船 的 图 片 。 为 了 过 滤 挥 这 些 图 片 ， 李 飞 飞 和 她 的 
团队 转 而 求助 于 “ 亚 马 进 土耳其 机 器 人 ”(Amazon Mechanical Turk) . 





Ap Db T Las Ae ESL E E — T REDSEBOSTIT] TEE 
亚马逊 公司 提供 的 一 个 网 站 ， 人 允许 用 户 将 简单 的 小 任务 分 派 给 执行 这 些 
任务 的 计算 机 。 用 户 必 须 向 网 站 提供 简单 的 说 明 ， 人 解释 如 何 完成 这 些 任 
务 ， 然 后 为 每 个 任务 文 付 一 小 笔 费 用 。 李 飞 飞 和 她 的 团队 给 亚马逊 士 耳 
其 机 器 人 提供 了 精确 的 指示 ， 要 求 计 算 机 “告诉 我 们 这 张 图 片 里 是 否 
皮 艇 ?或 者 “告诉 我 们 这 张 图 片 里 是 否 有 逮 罗 猫 ”。 三 一 旦 这 样 的 任务 被 
上 传 到 网 站 ， 计 算 机 就 会 按照 指示 处 理 这 些 任务 。 





亚马逊 士 耳 其 机 器 人 之 所 以 得 名 ， 是 因为 它 与 上 文 描述 的 下 国际 象 
棋 的 “ 士 耳 其 人 ”一 样 ， 它 的 “计算 机 ?并 不 是 真正 的 目 动 机 一 一 他 们 是 真 
人 ， 通 常 坐 在 自己 家 的 电脑 前 。 网 站 把 服务 背后 的 人 “抽象 化 ”， 让 人 感 
觉 这 些 任务 是 由 计算 机 自动 执行 的 。 网 站 并 不 隐瞒 人 类 执行 这 些 任 务 的 
秘密 ， 而 且 你 仍然 可 以 通过 有 限 的 方式 与 处 理 你 的 任务 的 人 进行 交互 。 














李 飞 飞 从 谷歌 图 片 搜索 中 下 载 图 片 ， 使 用 亚马逊 士 耳 其 机 器 人 整理 
它们 的 标签 ， 这 些 工作 的 结果 是 ，ImageNet 增 长 到 拥有 超过 1400 万 张 高 
分 辩 率 的 图 片 ， 标 注 的 类 别 超 过 2.2 万 个 。 三 与 当时 的 其 他 基准 数据 集 
相 比 ，ImageNet 提 供 了 多 出 一 个 数量 级 的 标注 图 片 。 虽 然 其 他 数据 集 可 
能 有 猫 或 狗 的 类 别 ， 但 ImageNet 对 某 些 类 别 还 有 细 粒 度 标 签 。 例 如 ， 在 
给 狗 标注 的 120 个 不 同 的 标签 中 ， 有 达尔 马 提 亚 犬 、 和 荷兰 毛 狮 犬 和 迷你 
FAME. 





2010 年 ， 李 飞 飞 组 织 了 一 场 比 赛 ， 名 为 “ImageNet 大 规模 视觉 识别 
挑战 赛 "， 数 据 集 中 共有 来 自 1000 个 类 别 的 140 万 张 图 片 。 竞 赛 的 一 部 分 
是 要 求 研究 人 员 使 用 算法 识别 出 1000 个 类 别 中 的 哪些 物体 出 现在 图 片 
中 ， 这 些 类 别 的 范围 很 广 ， 大 和 白 效 、 母 鸡 、 沙 漏 等 都 包含 在 其 中 。 三 

比赛 在 头 两 年 取得 了 一 定 的 进展 ， 识 别 错误 率 从 2010 年 的 28% 下 降 


到 2011 年 的 26%。 就 像 网 飞 奖 第 二 年 的 情况 一 样 ， 计 算 机 视 党 领域 的 研 
完 人 员 多 年 来 已 经 摘 取 了 所 有 容易 摘 到 的 果实 。 每 年 ， 该 领域 都 只 能 通 





过 添加 越 来 越 多 的 手工 特征 来 获取 小 幅 提 升 。 但 是 ，2012 年 发 生 了 一 次 
思考 模式 的 转弯， 一 份 不 被 看 好 的 提交 成 果 成 为 InageNet 挑 战 赛 无 可 争 
议 的 赢家 。 这 份 提交 成 果 是 一 个 深度 神经 网 络 ， 它 的 错误 率 为 16%， 远 
低 于 前 一 年 的 26%。\3 


1. Li Fei-Fei,Rob Fergus,and Pietro Perona, "Learning Generative Visual Models from Few 
Training Examples:An Incremental Bayesian Approach Tested — onl101Object 
Categories,"Proceedings of the2004IEEE Computer Society Conference on Computer Vision 
and Pattern Recognition,Los Angeles, CA,2004,178—186. 



































2. 这 次 ， 他 们 没有 翻阅 字典 ， 而 是 使 用 了 WordNet (由 普林斯顿 大 学 的 心理 学 家 、 语 言 
学 家 和 计算 机 工程 师 联合 设计 的 一 种 基于 认 知 语言 学 的 类 语词 典 ) 的 分 类 。 
3. Olga Russakovsky et  al,"ImageNet Large Scale Visual Recognition 


Challenge,” International Journal of Computer Vision115,no.3(2015):211—252. 
4. 通常 ， 亚 马 逊 士 耳 其 机 器 人 需要 更 精确 和 更 详细 的 说 明 。 
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Convolutional Neural Networks,"Proceedings of the25th International Conference on Neural 
Information Processing Systems,Lake Tahoe, NV,December3-6,2012,1097—1105. 
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7. 因为 一 张 图 片 可 能 包含 多 个 物体 ， 例 如 狗 、 天 空 、 陆 地 和 飞盘 ， 所 以 从 技术 上 讲 
需要 算法 识别 出 图 片 中 “前 5 名 ”的 物体 之 一 。 比 赛 还 有 一 个 不 同 的 、 更 困难 的 挑战 : 识别 
图 片 中 的 所 有 物体 ， 并 描述 每 个 物体 的 位 置 。 
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Visual Recognition Challenge2016,UNC Vision Lab webpage,accessed 
June16,2017,http://image-net.org/challenges/LSVRC/2016/results. 


卷 积 神经 网 络 


2012 年 ， 这 个 转变 了 思考 模式 的 网 络 被 称 为 AlexNet〈 意 为 “ 亚 历 死 
Bro ， 它 是 以 论文 第 一 作者 的 名 字 命 名 的 。AlexNet 比 它 的 竞争 对 手 
做 得 更 好 有 几 个 原因 ， 其 中 两 个 原因 我 在 上 文 提 到 过 : 它 是 用 大 量 的 数 
据 进 行 训练 的 ， 而 且 它 的 构建 方式 使 它 没 有 太 多 的 权重 需要 调整 。 研 究 
人 员 设 计 的 网 络 结构 使 旋钮 的 数量 和 位 置 有 效 地 利用 了 他 们 的 数据 。 事 
实 上 ， 按 照 我 们 现在 的 标准 衡量 ，AlexNet 很 难 算得 上 准确 高 效 ， 我 很 
快 就 会 解释 这 一 点 。 








让 我 们 回 到 我 们 的 目标 ， 使 用 AlexNet 建 立 一 个 可 以 检测 狗 的 图 片 
的 神经 网 络 。 与 玩 雅 达 利 游戏 的 网 络 一 样 ，AlexNet 也 是 一 个 卷 积 神经 
网 络 ， 它 使 用 一 系列 苍 积 层 ， 然 后 是 一 系列 全 连接 层 ( 如 图 9.2 所 示 ， 
卷 积 层 有 5 层 ， 全 连接 层 有 3 层 ) . =! 














这 种 卷 积 层 后面 接 着 全 连接 层 的 模式 ， 在 用 于 图 片 识 列 的 网 络 中 非 
常常 见 。 这 种 架构 究 范 有 什么 特别 之 处 ， 使 它 能 够 在 各 种 应 用 中 获得 成 
I]? 











红 、 绿 、 蓝 w 


数值 


全 连接 层 


图 9. 2 AlexNet 是 赢得 2012 年 ImageNet 挑 战 赛 冠军 的 人 工 神经 网 络 ， 它 的 架构 为 图 像 

分 类 的 进一步 改进 商定 了 基础 。AlexNet 有 5 个 卷 积 层 ， 然 后 是 3 个 全 连接 层 。 网 络 的 

大 部 分 是 在 两 个 不 同 的 处 理 器 上 进行 训练 的 ， 因 此 有 些 层 不 会 处 理 另 一 个 处 理 器 处 

理 的 任何 输入 。 输 入 层 代 表 图 片 的 红 、 绿 、 蓝 数值 ， 输 出 层 有 1000 个 神经 元 ， 对 应 
于 网 络 预测 的 每 种 类 别 








请 回忆 上 一 章 ， 卷 积 层 通 过 在 图 片 中 碍 找 物体 来 转换 图 片 。 每 个 郑 
积 层 都 有 一 组 过 滤器 ， 用 于 在 前 一 层 的 图 片 〈 或 多 张 图 片 ) PERAE 
的 模式 。 卷 积 层 用 每 个 过 滤器 滑 过 前 一 层 中 的 一 个 个 神经 元 。 你 可 以 将 
其 想象 成 在 海滩 上 用 一 堆 神 奇 的 "物体 探测 器 ?寻找 不 同 的 物品 。“ 物 体 
探测 器 ” 束 是 过 滤 右 。 一 个 过 滤 占 可 能 会 在 海滩 上 寻找 漂 膨 的 贝 元 ， 而 
为 一 个 过 小 右 可 能 会 寻找 海滩 游客 遗 落 的 手表 。 敬 积 层 的 输出 是 海滩 映 
财 的 集合 ， 每 个 过 滤器 对 应 一 个 映射 。 如 果 贝 充 过 小 右 没 有 在 图 片 的 任 
何 小 块 中 找到 与 其 模式 匹配 的 贝 元 ， 那 么 这 个 过 滤器 的 映射 在 所 有 地 方 
都 是 上 暗 的 ;， 相反 ， 它 在 发 现 贝 序 的 地 方 就 会 有 一 个 沈 点 。 这 同样 适用 于 
手表 探测 器 。 正 如 我 们 在 上 一 半 看 到 的 ， 如 果 过 小 絮 在 卷 积 输入 的 茶 个 
位 置 发 现 强 匹 配 ， 那 么 卷 积 得 出 层 中 这 个 位 置 的 神经 元 束 会 非常 明之 。 








在 上 一 章 中 ， 我 讨论 了 和 奉 找 游戏 中 外 星人 和 球 扯 的 过 涯 右 。 但 对 识 


别 自然 图 像 的 网 络 的 第 一 个 卷 积 层 的 过 滤器 而 言 ， 这 有 些 理想 化 且 不 切 
实际 (或 许 对 玩 雅 达 利 游戏 的 网 络 而 言 也 是 如 此 )〉) 。 卷 积 层 中 的 任何 一 
个 过 滤器 都 不 可 能 识别 出 这 样 的 复杂 物体 ， 部 分 原因 是 第 一 层 的 过 滤器 
通常 非常 小 。 例 如 ， 在 AlexNet 中 ， 第 一 层 的 过 滤器 在 11x11 的 像素 块 中 
查找 模式 。 


如 果 这 些 过 滤器 无 法 从 像素 中 识别 出 外 星人 和 宇宙 飞船 ， 又 怎么 能 
识别 有 狗 的 照片 ?更 不 用 说 识别 不 同 品种 的 狗 了 。 请 记 住 ，AlexNet 有 5 
层 卷 积 。 直 到 最 后 一 层 ， 网 络 才 能 识别 出 像 狗 和 宇宙 飞船 这 样 的 复杂 物 
体 。 在 理解 它们 如 何 做 到 这 一 点 之 前 ， 让 我 们 首先 回顾 一 下 第 一 层 。 
AlexNet 的 第 一 层 卷 积 使 用 了 大 约 100 个 过 滤器 ， 这 意味 着 它 有 100 个 神 
奇 的 “物体 探测 器 ”。 























我 展示 了 一 组 过 滤器 ， 类 似 于 AlexNet 卷 积 神经 网 络 中 的 过 滤器 ， 
如 图 9.3〈a) 所 示 。 图 中 的 每 个 方块 都 显示 了 一 个 像素 块 ， 它 会 点 亮 第 
一 个 卷 积 层 中 的 一 个 过 滤器 。 虽 然 你 无 法 在 这 些 黑白 图 像 中 看 到 ， 但 是 
这 些 过 滤器 同样 瑟 配 不 同 的 颜色 ;一 些 过 滤器 倾 问 于 匹配 瘟 色 和 和 色 ， 
另 一 些 匹 配 黄色 和 红色 ， 以 此 类 推 。 许 多 研究 人 员 将 这 些 过 滤器 称 
为 “边缘 探测 器 ?， 因 为 它们 匹配 输入 图 片 中 的 边缘 或 其 他 简单 模式 。 这 
些 像素 块 看 起 来 可 能 没有 什么 意义 ， 但 是 当 和 它们 与 网 络 中 更 深层 次 的 其 
他 “边缘 探测 露 ? 结 合 起 来 时 ， 就 变 得 有 意义 了 。 换 言 之 ， 它 们 是 网 络 中 
的 下 游 层次 使 用 的 构件 。 这 就 是 卷 积 神经 网 络 的 神奇 之 处 真正 开始 展现 
的 地 方 。 

















AlexNetf PIA AU FAR aR ALAS a 0L BET ERE 
卷 积 层 都 使 用 其 前 一 层 的 过 涯 圳 作为 构件 ， 将 它们 组 合成 更 复杂 的 模 
式 。 第 二 个 卷 积 层 不 考虑 像 系 ， 它 考虑 的 是 第 一 层 的 过 滤器 ， 即 图 片 中 
的 边缘 ， 然 后 构建 这 些 边 缘 的 模式 来 进行 搜索 。 你 可 以 在 图 9.3 (bo 中 
看 到 其 中 的 一 些 模式 。 图 中 的 每 个 方块 表示 输入 图 像 中 的 哪些 像素 会 明 
亮 地 点 亮 第 二 层 输出 中 的 过 滤器 。 这 些 图 案 仍然 不 是 完整 的 物体 ， 但 很 

















明显 它们 开始 变 得 更 有 趣 了: CH EEEGEOKUH RARER ROW AIR A 
用 ) ， 而 有 些 看 起 来 像 弯 曲 的 号 形 〈 这 对 于 识别 蛇 、 嘴 唇 或 其 他 弯曲 的 
物体 很 有 用 ) 。 





随 着 我 们 继续 深入 网 络 ， 卷 积 过 小 器 捕捉 的 成 分 变 得 越 来 越 复 林 。 
你 可 以 在 图 9.3(c)〉 和 图 9.3 〈d) 中 看 到 第 三 个 和 第 四 个 苍 积 层 的 过 滤 
名 。 和 之 前 一 样 ， 每 个 方块 代表 一 个 像素 块 ， 这 些 像素 块 可 以 蜗 度 激活 
该 层 中 的 茶 个 过 滤器。 此 处 ， 你 可 以 开始 辨认 出 物体 的 连贯 部 分 : 一 些 
像素 块 似乎 是 动物 的 眼睛 ， 而 有 些 像 系 块 似乎 是 较 大 块 的 毛皮 ， 还 有 一 
些 似乎 是 动物 的 其 他 更 大 的 部 分 ， 有 一 个 甚至 看 起 来 有 后 像 一 张 脸 ! 随 
者 我 们 深入 AlexNet 的 卷 积 层 ， 这 种 不 断 增 加 的 抽象 过 程 仍 在 继续 。 











(ic) (d) 


图 9. 3 AlexNet 各 层 卷 积 层 中 的 过 滤器 激活 的 像素 模式 ， 第 一 个 、 第 二 个 、 第 三 个 、 
第 四 个 卷 积 层 分 别 对 应 (a) (b) (Co) (d) 。 这 些 过 滤器 可 以 搜索 明暗 模式 CE 
们 还 搜索 特定 的 颜色 ， 但 你 无 法 在 这 张 图 片 中 看 到 ) 





一 旦 罕 过 第 5 个 卷 积 层 ， 我 们 就 会 发 现 3 个 全 连接 层 。 网 络 的 输出 有 
1000 个 不 同 的 神经 元 ， 分 别 对 应 ImageNet 挑 战 中 的 每 一 个 类 别 。 经 过 训 
练 的 AlexNet 遇 到 包含 这 些 类 别 的 图 片 时 ， 相 应 的 输出 神经 元 就 会 亮 起 


Ke WREMKA EKZ, BAKRRAA BMA TOMER Ul 
FREE LD sR MARRALAR RER. FT MILE HZ 7G 
应 该 束 会 保持 黑暗 。 


在 图 9.4 所 示 的 4 张 图 中 ， 你 可 以 看 到 一 组 图 像 块 示例 ， 它 们 可 以 点 
亮 该 网 络 最 终 输 出 层 中 的 一 些 神经 元 。 不 出 所 料 ， 点 亮 其 中 一 类 神经 元 
的 图 像 块 往往 符合 我 们 的 直觉 ， 点 之 大 日 痊 神 经 元 的 图 像 块 中 似乎 有 大 
Ha, Roe iamteZ oN ABR PUPA. SAT, ER 
像 中 的 物体 并 非 来 目 任 何 一 张 图 片 : 这 些 图 像 块 是 由 网 络 目 身 生成 ， 以 
精确 地 反映 每 个 神经 元 “寻找 ”的 内 容 的 。 














(c) (d) 


图 9.4 激活 网 络 输出 层 神 经 元 的 图 像 块 。 神 经 元 对 应 于 lmageNet 挑 战 赛 中 的 类 别 。 
(a) KAZ; (b) Wim: (c) 母 鸡 ; (d) 挂钟 


ImageNet 挑 战 赛 的 图 片 类 型 俩 癌 动 物 ， 在 总 共 1000 个 类 别 中 ， 仅 家 
养 犬 束 有 120 个 不 同 的 类 别 。 这 意味 着 ， 要 创建 识别 你 的 宠物 狗 的 网 
络 ， 我 们 可 能 只 需要 对 AlexNet 稍 加 修改 : RITR EAR RA) Hr 
有 输出 神经 元 ， 除 了 那些 与 你 的 爱 犬 最 匹配 的 神经 元 。 但 一 般 而 言 ， 我 











们 可 能 希望 保留 其 他 输出 神经 元 ， 因 为 这 有 助 于 了 解 图 片 是 人 否 与 其 他 物 
体 匹 配 ， 比 如 不 同 种 类 的 狗 ， 甚 至 是 猫 。 


1. 








Krizhevsky et al.,“ImageNet Classification with Deep Convolutional Neural Networks." 
其 中 一 些 层 之 间 是 额外 的 层 ， 它 们 缩小 了 每 层 中 的 像素 数量 ， 使 下 游 处 理 更 容易 ， 
并 且 后 面 的 过 滤器 可 以 履 善 输入 图 像 的 更 大 部 分 。 这 被 称 为 最 大 池 (max-pooling) ， 它 
缓解 了 网 络 下 游 的 计算 瓶颈 ， 增 强 了 对 噪声 的 鲁 棒 性 ， 可 以 说 它 在 允许 过 滤器 更 “柔和 ”地 
匹配 图 像 中 的 位 置 方面 发 挥 了 重要 作用 。 
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为 什么 是 深度 神经 网 络 ? 


是 什么 让 深度 神经 网 络 ， 尤 其 是 AlexNet， 能 够 在 ImageNet 挑 战 赛 
中 发 挥 得 如 此 出 色 ? 网 络 的 架构 有 帮助 吗 ? 例如 ， 网 络 需 要 那么 深 吗 ? 
我 们 已 经 知道 ， 只 有 一 个 隐藏 层 的 神经 网 络 可 以 表示 任意 复杂 的 函数 ， 
因此 ， 人 至 少 从 理论 上 讲 ， 只 有 一 个 隐藏 层 的 网 络 应 该 可 以 完成 ImageNet 
挑战 赛 。 




















只 有 一 个 隐藏 层 的 问题 在 于 ， 我 们 无 法 保证 隐藏 层 无 须 变 得 非常 庆 
大 就 能 表示 我 们 想 要 的 函数 。 如 果 隐 藏 层 变 得 过 于 庞大 ， 也 就 是 太 宽 ， 
那么 我 们 就 需要 学 习 太 多 的 权重 ， 如 果 没 有 大 量 的 数据 ， 很 可 能 会 过 度 
拟 合 。 另 一 方面 ， 有 理论 证 据 表 明 ， 通 过 让 隐藏 层 更 深 而 不 是 更 宽 ， 我 
们 可 以 更 有 效 地 表示 复杂 函数 ， 也 就 是 说 ， 神 经 元 要 少 得 多 ， 因 此 我 们 


需要 学 习 的 权重 也 要 少 得 多 。 一 





























为 什么 是 深度 而 不 是 宽度 让 网 络 更 有 效 ? 如 果 你 曾经 玩 过 任天堂 
Wii 游 戏 机 ， 那 么 你 很 有 可 能 创建 了 一 个 Mii。Mii 是 一 个 卡通 人 物 ， 代 
表 玩 家 角色 ， 也 就 是 你 。 它 是 你 在 某 些 任天堂 Wii 游 戏 中 的 化 身 。 为 了 
创建 你 的 Mii， 你 需要 选择 眼睛 、 鼻 子 、 皮 肤 颜 色 、 头 发 以 及 其 他 各 种 
面部 和 身体 特征 ， 以 此 创建 一 个 看 起 来 像 你 自己 的 角色 。 对 于 每 个 特 
征 ， 你 都 有 一 些 选 项 可 以 选择 ， 比 如 说 5 到 10 种 选择 。 虽 然 最 终 的 结果 
往往 更 卡通 化 ， 而 不 像 真 实 的 照片 ， 但 它 仍然 与 你 本 人 或 你 塑造 的 其 他 
人 有 着 惊人 的 《和 幽默 的 ) 相似 之 处 。 通 过 使 用 少量 的 构件 ， 眼 睛 、 臭 
子 、 头 发 、 嘴 巴 以 及 Mii 角 色 的 其 他 所 有 共享 的 特征 ， 你 可 以 创建 各 种 
各 样 的 Mii 角 色 ， 这 些 角 色 可 以 忠实 地 代表 你 想象 的 任何 人 。 








现在 让 我 们 回顾 一 下 卷 积 层 的 优点 。 神 经 网 络 的 研究 人 员 认 为 ， 卷 
积 层 之 所 以 强大 ， 是 因为 它们 使 用 分 布 式 表示 来 处 理 图 像 。 它 们 可 以 让 





你 在 不 同 的 神经 元 之 间 重 复 使 用 组 件 。 如 果 你 的 神经 网 络 能 够 识别 120 
种 不 同 品种 的 狗 ， 那 么 前 几 层 束 可 以 专注 于 识别 我 们 用 来 描述 狗 的 最 基 
本 的 特征 : 它们 可 能 拥有 的 不 同类 型 的 毛皮 、 耳 条 以 及 颜色 。 然 后 ， 更 
深 的 层次 可 以 专注 于 以 各 种 方式 组 合 这 些 不 同 的 “基本 元 素 "。 正 如 你 可 
以 使 用 各 种 被 明确 地 定义 且 可 重复 使 用 的 面部 和 吴 体 特征 构建 Mii 一 
样 ， 更 高 层次 的 卷 积 层 也 可 以 用 早期 卷 积 层 中 发 现 的 特征 构建 物体 ， 比 
如 狗 。 这 个 过 程 可 以 在 每 一 层 重复 ， 使 每 一 层 所 能 代表 的 物体 呈 指 数 级 
增长 。 可 以 想象 ， 在 网 络 能 够 识别 狗 和 人 的 那 一 层 后 面 的 层次 上 ， 可 能 
会 出 现 可 以 解释 整个 场景 的 神经 元 。 例 如 ， 你 可 能 有 识别 休闲 公园 的 神 
经 元 (利用 网 络 中 早期 识别 狗 、 人 和 游乐 场 设备 的 神经 元 ) ， 或 者 可 能 
有 识别 城市 环境 的 神经 元 (利用 识别 汽车 、 街 道 和 商业 店面 的 神经 
元 ) 。 在 下 一 章 中 ， 我 们 将 研究 可 以 为 这 样 的 场景 生成 字幕 的 神经 网 
络 。AlexNet 的 创建 者 也 从 经 验 上 看 到 了 使 用 多 层 网 络 的 好 处 。 如 朱 他 
们 删 反 了 任何 一 个 卷 积 层 ， 那 么 网 络 的 性 能 就 会 下 降 。 三 ImageNet 挑 战 
赛 的 参赛 者 在 AlexNet 问 世 之 后 的 几 年 中 也 注意 到 了 这 一 点 : 随 看 他 们 
继续 构建 越 来 越 深 的 网 络 ， 他 们 在 挑战 赛 上 的 表现 不 断 改 善 。 











2012 年 之 后 ， 许 多 在 ImageNet 挑 战 赛 中 提交 的 成 果 都 遵循 了 
AlexNet 的 思想 ， 使 用 了 深度 神经 网 络 。 尽 管 AlexNet 在 2012 年 遥遥 领 
先 ， 但 2013 年 ， 其 他 一 些 团队 击败 了 AlexNet， 当 时 所 有 顶级 团队 都 使 
用 了 深度 学 习 。 在 一 个 以 往 每 年 都 收效 甚 微 的 研究 领域 ， 随 着 研究 人 员 
继续 改进 他 们 最 心爱 的 新 玩具 ， 错 误 率 在 接 下 来 的 几 年 里 直线 下 降 。 
2014 年 ， 谷 歌 推 出 的 网 络 在 某 些 指 标 上 的 准确 性 超过 了 人 类 。 


2018 年 ， 就 在 我 写 这 本 书 的 时 候 ， 这 个 研究 领域 仍然 非常 活跃 ， 而 
旦 人 硕果 累累 ， 因 为 研究 人 员 正 在 发 现 将 各 个 层 连 接 起 来 的 新 方法 。 
ImageNet 挑 战 赛 中 表现 最 好 的 网 络 目 前 的 错误 率 为 2.39%， 与 
AlexNet16% 的 错误 率 相 比邻 人 吃 尺 。 三 正如 谷歌 大 脑 项 目 计算 机 体系 
结构 研究 员 、 加 州 大 学 伯克利 分 校 前 教授 戴 夫 : 帕 特 森 (Dave 
Patterson) 指出 的 那样 ， 即 使 是 这 个 领域 的 先驱 也 感到 震惊 ， 这 些 深度 








学 习 的 方法 居然 如 此 里 有 成 效 。 








留意 网 络 深度 是 有 帮助 的 ，ImageNet 挑 战 赛 中 的 选手 把 他 们 的 网 络 
变 得 越 来 越 深 ， 达 到 了 看 似 鞠 请 的 程度 。 人 例如， 谷歌 设 计 了 一 个 22 层 的 
网 络 ， 名 为 “ 盗 梦 空间 网 络 ”(Inception Network) ， 这 个 名 字 引 用 了 
2010 年 的 电影 《 盗 梦 空间 》 CInception) 和 网 络 热 点 “我 们 需要 更 
深 ”(We need to go deep) 。 三 但 是 添加 更 多 层 会 增加 我 们 需要 调整 的 
参数 数量 ， 谷 歌 的 研究 人 员 如 何 做 到 如 此 深度 而 又 不 过 度 拟 合 呢 ? 一 种 
方法 是 认识 到 其 卷 积 层 中 的 神经 元 可 能 过 于 简单 (毕竟 ， 它 们 只 是 加 权 
平均 分 类 器 ) 。 所 以 他 们 用 可 以 找到 更 复杂 模式 的 微型 网 络 取而代之 。 
然而 重要 的 是 ， 他 们 这 样 做 的 方式 是 每 层 使 用 较 少 的 参数 《〈 例 如 ， 两 个 
3x3 过 滤器 和 一 个 1x1 过 小 器， 以 及 将 它们 组 合 起 来 的 3 个 权重 ， 总 共 需 
要 22 个 参数 ， 而 一 个 第 拙 的 5x5 过 滤器 有 25 个 参数 ) 。 像 “ 盗 梦 空间 网 
络 ” 这 样 的 深度 不 再 被 认为 是 极 问 的 ; 现在 ， 一 个 网 络 有 10 到 20 层 深 ， 
有 数 十 亿 个 权重 需要 调整 ， 这 样 的 网 络 屡见不鲜 。 有 些 网 络 已 经 深 达 数 
TE. eL 








除了 深度 ， 研 究 人 员 还 发 现 了 其 他 改善 网 络 的 方法 。 例 如 ， 他 们 发 
现 ， 如 果 在 不 相 邻 的 卷 积 层 之 间 添 加 连接 ， 人 允许 信息 “ 绕 过 ” 某 些 层 ， 网 
络 的 性 能 会 更 好 。 他 们 还 找到 了 一 种 方法 ， 让 神经 元 在 一 层 内 相互 加 
强 ， 这 个 过 程 被 称 为 激发 〈excitation) 。 例 如 ， 当 卷 积 层 的 一 部 分 识别 
出 猫 的 毛皮 时 ， 激 发 的 作用 便 体现 了 出 来 : 这 是 一 个 信号 ， 它 会 告诉 该 
层 的 其 他 部 分 注意 寻找 相关 的 项 目 ， 如 猫 的 眼睛 和 猫 的 舌头 。 
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AlexNet 的 网 络 染 构 很 重要 ， 但 它 成 功 的 为 一 个 因素 是 研究 人 员 用 
来 训练 网 络 的 数据 具有 庞大 的 规模 。 他 们 使 用 了 120 万 张 来 自 比 赛 的 图 
片 ， 训 练 他 们 的 网 络 ， 但 是 ， 他 们 观察 到 “物体 的 特征 不 随 光 照 强 度 和 
颜色 的 变化 而 改变 ”， 于 是 他 们 通过 水 平 翻转 图 像 、 平 移 图 像 和 调整 颜 
色 平 衡 来 增加 训练 数据 。 三 最 终 ， 他 们 得 到 的 训练 数据 量 是 最 初 的 2000 
倍 ， 即 大 约 20 亿 张 用 来 训练 网 络 的 图 片 。 如 果 没 有 像 这 样 增加 训练 数 
据 ， 他 们 就 只 能 使 用 一 个 小 得 多 的 、 表 达能 力 兰 得 多 的 网 络 。 三 


对 于 如 此 海量 的 用 于 训练 的 图 片 ， 他 们 的 瓶颈 并 不 在 于 能 将 多 少 图 
片 输入 网 络 中 ， 而 在 于 能 够 以 多 快 的 速度 输入 这 些 图 片 。 正 如 AlexNet 
的 创建 者 所 言 : 


最 后 ， 网 络 的 大 小 主要 取决 于 当前 《处 理 器 ) 可 用 的 内 存量 ， 以 及 
我 们 容许 的 训练 时 间 。 我 们 的 网 络 需 要 5 6 天 时 间 进 行 训练 .…… 我 们 所 
有 的 实验 都 表明 ， 只 要 等 来 更 快 的 (APS) 和 更 大 的 数据 集 ， 我 们 的 
结果 就 可 以 得 到 改进 。 三 


方便 的 是 ， 最 适合 训练 这 些 网 络 的 硬件 从 那 时 起 一 直 在 不 断 改进 。 
训练 神经 网 络 涉及 执行 许多 和 矩阵 运算 。 计 算 机 游戏 必须 执行 完全 相同 类 
型 的 操作 才能 呈现 高 质量 的 图 形 ， 在 过 去 几 十 年 中 ， 显 卡 已 经 得 到 了 优 
化 ， 以 文 持 这 些 操 作 。 于 是 ， 深 度 学 习 研 究 人 员 开 始 使 用 显卡 ， 因 为 显 
卡 可 以 将 训练 网 络 所 需 的 时 间 缩 短 至 原来 的 150~1/10。 在 深度 学 习 依赖 
于 计算 机 显卡 之 前 ， 执 行 这 些 操作 的 计算 机 显卡 市 场 就 已 经 变 得 很 大 ， 
而 且 鞠 和 争 激 烈 ， 这 迫使 显卡 的 价格 变 得 低廉 ， 直 到 过 去 儿 年 对 显卡 的 需 
求 回 升 。 三 英 伟 达 是 显卡 的 主要 制造 商 之 一 ， 它 一 直 像 印 报纸 一 样 生产 
显卡 ， 像 卖 烤 饼 一 样 销 售 显卡 ， 英 伟 达 还 开始 为 目 动 驾 驶 汽车 生产 更 专 



































业 的 硬件 。 这 些 事实 并 没有 被 它 的 投资 者 忽视 ， 他 们 愿意 在 2018 年 以 每 
股 242 美 元 的 价格 购买 英 伟 达 的 宝贵 股票 ， 而 美 伟 达 2015 年 时 的 股价 仅 
为 每 股 20 美 元 。 与 此 同时 ， 谷 歌 推出 了 专用 芯片 ， 这 些 芯片 的 速度 似乎 
比 显卡 的 速度 又 提高 了 一 个 数量 级 。 三 





到 目前 为 止 ， 我们 主要 关注 的 是 神经 网 络 如 何 让 计算 机 感知 图 像 内 
容 的 高 级 技术 细节 。 我 们 研究 了 神经 网 络 的 层次 组 织 方 式 、 训 练 方式 ， 
以 及 在 如 此 高 水 平 上 的 改进 如 何 推动 了 计算 机 感知 能 力 的 边界 。 然 而 ， 
当 研 究 人 员 一 直 在 寻找 从 宏观 层面 构建 这 些 网 络 的 有 效 方法 的 时 候 ， 他 
们 也 一 直 在 寻找 从 微观 层面 ， 即 单个 神经 元 层面 ， 改 善 这 些 网 络 的 方 
法 。 根 据 神 经 元 的 输入 ， 改 变 网 络 中 神经 元 的 发 光 方 式 ， d ab 
网 络 保留 我 们 用 来 训练 它们 的 信息 的 能 力 产 生 惊 人 的 影响 。 在 下 一 
中 ， 我 们 将 更 仔细 地 研究 为 什么 会 出 现 这 种 情况 。 
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最 近 在 深度 学 ed 中 得 到 了 广泛 的 应 用 。 除 了 宽度 一 个 维度 ) 和 高 度 〈 另 一 个 维度 ) 之 
外 ， 张 量 可 能 还 有 其 他 维度 。 
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计算 机 生成 图 片 


2015 年 6 月 10 日 ， 一 张 奇怪 而 神秘 的 图 片 出 现在 了 互联 网 上 ， 它 被 
匿名 发 布 在 了 Imgur.com 网 站 上 。 乍 一 看 ， 这 张 图 片 中 像 有 一 两 只 松鼠 
在 窗台 上 休息 。 但 相似 之 处 仅 此 而 已 ， 当 你 更 仔细 地 观察 时 ， 你 可 以 在 
各 个 尺度 上 发 现 奇怪 的 细节 和 物体 。 互 联网 上 的 这 张 图 片 亦 真 亦 幻 ， 就 
像 分 形 一 样 ， 松 鼠 脸 上 长 着 狗 异 子 ， 这 里 有 一 座 神秘 的 宝塔 ， 那 里 有 一 
个 人 的 驱 干 ， 还 有 一 个 半 乌 半 长 贷 亨 的 生物 ， 它 们 无 颖 地 骸 入 这 张 图 片 
的 细 市 。 每 个 角落 和 颖 际 里 都 有 诡异 的 眼睛 问 外 张望 。 看 着 这 张 照 片 感 
谢 束 像 在 云 筋 中 寻找 物体 ， 只 不 过 这 不 是 你 的 幻想 。 或 者 真 的 就 是 幻 
想 ? 你 必须 再 看 一 届 才 能 看 个 真切 。 

















很 明显 ， 这 张 图 片 不 是 人 类 创造 的 。 它 太 离 奇 了 ， 不 可 能 是 照片 ， 
它 的 细节 太 精 细 了 ， 不 可 能 是 插图 。 在 Imgur.com 上 发 布 这 张 图 片 的 匿 
名 用 户 只 写 了 一 句 话 来 描述 它 : 





这 张 图 片 是 计算 机 自己 生成 的 (来自 一 位 从 事 人 工 智能 工作 的 朋 
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随 着 这 张 图 片 开始 传播 ， 网 民 试 网 理解 它 的 含义 。 谷 歌 的 工程 师 开 
始 生 成 更 多 像 这 样 的 图 片 ， 并 相互 分 享 。 一周 后 ， 他 们 发 表 了 一 篇 博 
文 ， 解释 了 这 张 图 片 。 这 张 图 厂 确 实 是 人 工 智能 (具体 地 说 是 人 工 神 经 
网 络 ) 生 成 的 。 这 个 人 工 智能 被 称 为 “ 深 梦 ”(Deep Dream) 。 随 着 这 些 
图 片 的 出 现 ， 人 们 开始 问 一 些 隐藏 在 表面 之 下 的 令 人 不 安 的 问题 。 这 些 





图 片 真 的 是 机 器 人 之 梦 吗 ? 我 们 是 否 了 解 这 些 神经 网 络 ? 研究 人 员 是 否 
在 重建 人 类 思维 方面 做 得 太 过 了 ? 


随 着 现代 实业 家 埃 隆 : 马 斯 克 (Elon Musk) 等 人 表达 了 各 自 的 担 
忧 ， 人 们 对 智能 机 占 的 关注 被 进一步 激 起 。 据 报道 ， 马 斯 元 投资 
DeepMind 是 为 了 关注 人 工 智能 的 发 展 ， 他 担心 他 的 好 友 、 和 谷歌 创始 人 
这 二 "i fila} (Lamy Page) 可 能 “意外 制造 出 邪恶 的 东西 "， 更 确切 地 
讲 ， 这 些 东西 还 包括 “一 批 能 够 摧毁 人 类 的 人 工 智 能 增强 型 机 器 人 ”。 O 


这 些 图 片 出 现 的 时 候 ， 我 们 已 经 知道 神经 网 络 在 玩 雅 达 利 游戏 和 理 
解 图 像 内 容 方 面 非常 有 用 。 图 片 确实 引发 了 一 些 令 人 不 安 的 问题 ， 但 正 
如 我 们 将 要 看 到 的 ， 神 经 网 络 能 够 很 好 地 玩 雅 达 利 游戏 的 原因 和 它们 能 
够 产生 迷 纪 梦境 的 原因 实际 二 是 密切 相关 的 。 尽管 这 些 梦境 起 初 让 深度 
神经 网 络 变 得 更 加 神秘 ， 但 事实 证 明 ， 这 些 梦境 也 可 以 让 它们 变 得 不 那 
么 神秘 。 
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在 神经 网 络 的 历史 中 ， 有 一 段 时 间 研 究 人 员 回 避 了 深度 架构 。 他 们 
有 万 能 近似 定理 ， 这 表明 他 们 可 能 不 需要 那么 深 的 网 络 ， 而 且 他 们 在 实 
践 中 也 知道 深度 网 络 很 难 训练 。 但 是 深度 网 络 之 所 以 难以 训练 ， 是 因为 
研究 人 员 还 没有 发 现 让 网 络 中 的 神经 元 发 光 的 最 佳 方法 。 


还 记得 吗 ， 在 神经 网 络 中 ， 每 个 神经 元 都 是 一 个 简单 的 分 类 器 。 神 
经 元 对 其 输入 进行 加 权 求 和 ， 并 用 茶 种 方式 压缩 这 个 加 权 求 和 的 值 ， 以 
产生 输出 ， 如 疼 8.2 所 示 。 这 个 压缩 函数 看 上 去 无 天 紧要 ， 但 事实 证 明 
它 对 我 们 训练 深度 网 络 非常 重要 。 在 很 长 一 段 时 间 里 ， 研 究 人 员 最 喜欢 
的 神经 网 络 压缩 函数 都 遵循 我 在 图 10.1 Ca) 中 所 示 的 S 型 曲线 。 三 这 条 
S 型 曲线 取 前 一 层 神经 元 亮度 的 加 权 和 ， 并 将 其 压缩 至 0~1 的 范围 内 。 如 
果 神 经 元 输入 的 加 权 和 非常 小 ， 神 经 元 的 输出 就 接近 于 0; 如 果 非 党 
大 ， 神 经 元 的 输出 就 非常 接近 1。 











使 用 S 型 曲线 的 好 处 是 ， 神 经 元 的 输出 值 都 “表现 民 好 ”: 任何 神经 
元 都 不 会 输出 高 得 离 详 或 低 得 离谱 的 值 ， 而 且 和 输入 和 输出 之 间 的 关系 函 
数 图 形 是 平滑 的 。 当 你 训练 或 使 用 网 络 时 ， 这 些 都 是 很 好 的 特性 ， 否 则 
当 你 使 用 网 络 时 ， 边 权重 可 能 会 膨胀 到 无 穷 大 。 具 有 一 个 平滑 的 函数 图 
形 意味 着 ， 如 果 你 稍微 调整 网 络 的 输入 或 输出 ， 你 总 是 知道 应 该 调整 多 
少 网 络 权 重 。 研 究 人 员 还 喜欢 指出 ， 这 个 函数 是 受 生 物 学 局 发 的 ， 但 还 
记得 吗 ， 使 用 茶 种 东西 仅仅 是 因为 它 受 到 了 生物 学 启发， 这 个 理由 有 时 
会 “元 满 危 险 ”。 


使 用 S 型 曲线 的 问题 是 ， 它 往往 会 “稀释 ”通过 网 络 传递 的 消息 。 如 
果 输 入 到 神经 元 的 加 权 和 很 大 ， 那 么 神经 元 不 关心 输入 是 大 还 是 特别 
大 ， 无 论 哪 种 情况 ， 它 都 输出 数字 1。 在 男 一 个 极端 也 是 如 此 : 无 论 神 











经 元 的 输入 是 负数 还 是 特别 小 的 负数 ， 神 经 元 都 输出 数字 0。 当 我 们 运 
行 网 络 时 ， 这 可 能 不 是 问题 ， 但 是 当 我 们 试图 训练 网 络 时 ， 这 残 可 能 成 
为 问题 。 我 们 通过 网 络 问 后 发 送 用 来 调整 权重 的 信息 ， 而 它 在 通过 网 络 
时 会 被 稀释 。 我 们 最 初 认为 的 好 处 之 一 我 们 知道 在 训练 网 络 时 需要 调 
整 多 少 权 重 ) 其 实 并 没有 多 大 好 处 ， 因 为 当权 重 实 际 上 应 该 变动 很 大 的 
时 候 ， 训 练 算法 可 能 认为 根本 不 需要 调整 权重 。 这 个 问题 有 时 被 称 

为 “梯度 消失 ”。 梯 大 是 神经 网 络 中 的 权重 为 了 从 训练 数据 样本 中 学 习 而 
必须 移动 的 方向 。 如 果 梯 度 消 失 《〈 即 当 网 络 未 完成 训练 时 ， 梯 度 几 乎 为 
零 ) ， 这 意味 着 网 络 无 法 从 它 的 训练 样 例 中 学 习 : 它 会 忽略 训练 样 例 ， 
即使 该 样 例 是 有 用 的 。 由 于 这 个 问题 ， 研 究 人 员 只 好 继续 研究 其 他 激活 
函数 。 三 








在 男 一 个 极端 ， 如 果 我 们 完全 不 压缩 神经 元 的 输出 ， 而 是 使 用 图 
10.1 Cb) 中 的 激活 函数 ， 将 每 个 神经 元 计算 出 的 加 权 和 直接 作为 该 神 
经 元 的 输出 传递 出 去 ， 会 如 何 ? 这 样 就 不 存在 梯度 消失 问题 了 ， 事 实 
上 ， 如 果 我 们 使 用 这 个 压缩 函数 ， 更 新 网 络 权重 就 会 非常 容易 。 但 这 玮 
来 了 妃 一 个 问题 : 如 果 我 们 对 网 络 中 的 所 有 神经 元 使 用 这 个 压缩 函数 ， 
那么 整个 网 络 将 在 数学 上 抽 缩 成 单 层 网 络 的 等 价 物 ， 我 们 认为 的 从 深度 
网 络 中 获得 的 所 有 好 处 都 会 消失 。 假 设 我 们 想 要 从 多 层 网 络 中 获 蔓 《我 
们 确实 这 样 希望 ) ， 这 同样 行 不 通 。 























1. 这 通常 被 称 为 型 函数 (sigmoid function) ， 公 式 为 exp(x)/(1+exp(x))。 





2. Alex Krizhevsky,llya Sutskever,and Geoffrey E.Hinton,“ImageNet Classification with 
Deep Convolutional Neural Networks,”Proceedings of the25th International Conference on 
Neural Information Processing Systems,Lake Tahoe,NV,December3—6,2012,1097—1105. 40 5: #8 
要 使 用 S 型 激活 函数 ， 那 么 我 们 仍然 有 方法 可 以 训练 深度 神经 网 络 。 一 种 常见 的 方法 是 使 
用 无 监督 预 训练 。 这 种 方法 的 思想 在 概念 上 类 似 于 网 飞 奖 中 使 用 的 矩阵 分 解 方法 ， 因 为 
它 找到 了 一 种 低 维 表示 , “解释 ”了 神经 元 激活 的 许多 变化 。 
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大 约 从 2010 年 开始 ， 我 们 就 已 经 看 到 了 更 好 的 结果 ， 出 现 了 一 个 介 
于 这 两 个 极端 之 间 的 激活 函数 ， 如 图 10.1 Ce 所 示 。 这 个 激活 函数 被 称 
为 线性 整流 函数 ， 简 称 "ReLU”， 最 初 由 AlexNet 在 2012 年 使 用 ， 此 后 用 
于 各 种 其 他 网 络 。 三 如 果 神 经 元 的 输入 总 和 小 于 0， 则 输出 等 于 0， 如 果 
输入 的 总 和 大 于 0， 则 输出 等 于 输入 的 总 和 。 有 一 段 时 间 ， 研 究 人 员 担 
心 这 会 产生 与 型 曲线 相同 的 问题 ， 即 网 络 会 稀释 通过 许多 层 传递 的 信 


息 。 但 这 种 情况 在 实践 中 似乎 并 没有 发 生 。 一 
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图 10.1 神经 网 络 的 激活 咏 数 。 (a) SAHR 〈 正 式 名 称 为 S$ 型 函数 ) 被 使 用 了 很 长 
时 间 ， 但 〈c) 
ReLU 激 活 有 函数 已 经 变 得 很 流行 了 ， 因 为 它 使 深度 神经 网 络 的 训练 变 得 更 容易 


相反 ，ReLU 激 活 函 数 似 乎 有 一 些 非 第 好 的 特性 。 对 于 任意 固定 的 
输入 ， 网 络 神经 元 的 茶 些 部 分 会 是 暗 的 ， 而 其 他 部 分 会 被 点 完 。 如 采 你 
在 任意 方 辐 上 稍微 改变 输入 ， 原 本 “开启” 或 “关闭 ”的 神经 元 集合 通常 不 
会 改变 。 当 你 改变 一 人 小 部 分 输入 时 , “开局 ”的 神经 元 的 亮度 会 发 生变 
化 ， 但 “开局 ”的 神经 元 仍 会 保持 “开局 ”， “关闭 ”的 神经 元 仍 会 保持 “ 关 
闭 *。 但 更 重要 的 是 ， 网 络 在 这 个 输入 附近 的 小 范围 内 表现 得 像 单 层 网 
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当 你 继续 改变 网 络 的 输入 ， 让 它 更 加 远离 最 初 的 输入 时 ,“ 开 局 ”的 
神经 元 集合 就 会 开始 发 生变 化 。 当 你 平滑 地 改变 输入 时 ， 输 出 仍然 会 平 
请 地 变化 ， 也 束 是 说 ， 只 要 你 不 突然 改变 输入 ， 输 出 就 永远 不 会 出 现 突 
变 。 三 但 是 ， 输 入 和 输出 之 间 的 关系 会 改变 。 你 可 以 将 整个 网 络 看 作 将 
单 层 网 络 拼凑 在 一 起 而 形成 的 ， 它 们 之 所 以 被 拼 凌 在 一 起 ， 是 为 了 符合 
训练 数据 。 哪 个 单 层 网 络 处 理 输入 ， 取 决 于 哪些 神经 元 被 该 输入 “ 开 
局 ?或 “关闭 ”。 事 实 上 ， 人 整个 网 络 中 编码 的 单 层 网 络 的 数量 可 能 是 指数 
级 的 。 三 


当 我 说 这 是 一 个 指数 级 数量 的 网 络 时 ， 我 不 是 随意 说 的 。 我 指 的 是 
数学 意义 上 的 指数 。 隐 藏 在 整个 网 络 中 的 可 能 的 单 层 网 络 数量 ， 是 通过 
网 络 中 的 神经 元 “开局 ”或 “关闭 ”的 所 有 可 能 方式 来 描述 的 。 对 于 一 个 只 
有 60 个 神经 元 的 ReLU 网 络 ， 它 的 神经 元 的 “ 开 / 关 ”状态 组 合 的 数量 〈 即 
我 们 可 以 隐藏 在 其 中 的 单 层 网 络 的 数量 ) ， 大 约 是 世界 上 所 有 海滩 和 沙 
漠 上 的 沙 粒 的 数量 。 三 一 个 有 270 个 神经 元 的 网 络 可 能 拥有 与 已 知 宇宙 
中 的 原子 数目 一 样 多 的 组 合 。 三 还 记得 吗 ， 现 代 神 经 网 络 可 以 轻易 拥有 
数 百 万 个 神经 元 。 如 果 网 络 只 需要 使 用 一 个 简单 的 函数 来 表示 它 的 输 
入 ， 那 么 它 可 以 做 到 ; 如 果 网 络 需 要 使 用 一 个 更 复杂 的 函数 不 像 拼 接 
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既然 ReLU 的 函数 图 形 大 部 分 也 是 平滑 的 ， 那 么 为 什么 ReLU 没 有 出 
现 和 S 型 曲线 一 样 的 问题 ?假设 你 有 一 个 希望 网 络 学 习 的 训练 样 例 。 虽 
然 对 于 一 个 典型 输入 ， 许 多 神经 元 会 关闭 ， 但 是 只 要 从 网 络 的 输入 到 输 
出 至 少 存在 点 亮 的 神经 元 的 路 径 ， 那 么 网 络 就 可 以 调整 这 条 路 径 上 的 权 
重 ， 以 此 学 习 训练 样 例 。 当 来 自 这 个 样 例 的 信息 通过 这 些 点 亮 的 神经 元 
传播 时 ， 这 条 路 径 上 的 权重 会 为 了 训练 样 例 把 功劳 或 责任 揽 到 自己 身 
上 。 三 随后 ， 当 网 络 看 到 一 个 与 训练 时 看 到 的 样 例 类 似 的 输入 时 ， 它 就 
会 点 亮 一 些 或 所 有 在 训练 中 看 到 类 似 样 例 时 点 亮 的 神经 元 ， 以 此 “ 想 
起 ”那些 训练 样 例 。 











ReLU 的 这 种 优点 类 似 于 另 一 种 训练 深度 神经 网 络 的 流行 技巧 ， 即 
在 训练 过 程 中 暂时 “抑制 ?神经 元 。 每 当 使 用 一 个 训练 样 例 来 训练 网 络 
时 ， 随 机 的 一 部 分 神经 元 (比如 50% 的 神经 元 〉 会 被 暂时 抑制 ， 方 法 是 
将 它们 的 输出 暂时 设置 为 0。 三 然后 使 用 这 个 训练 样 例 更 新 剩余 的 神经 
元 的 权重 ,念佛 被 抑制 的 神经 元 根本 不 存在 一 样 。 与 ReLU 一 样 ， 被 抑 
制 的 神经 元 的 组 合 数量 是 指数 级 的 ， 因 此 ， 实 际 上 有 无 限 多 的 网 络 需要 
训练 。 





当 使 用 训练 出 的 网 络 进 行 预 测 时 ， 每 个 神经 元 的 输出 都 被 缩 小 了 ， 
这 样 每 个 神经 元 的 输入 变 成 了 许多 独立 训练 模型 的 平均 值 。 整 个 网 络 实 
际 上 变 成 了 由 大 量 经 过 训练 的 网 络 组 成 的 庞大 混合 体 ， 这 让 人 想起 了 在 
网 飞 奖 上 取得 成 功 的 模型 平均 技术 。 三 


这 些 训 练 神经 网 络 的 技巧 ， 包 括 使 用 ReLU 激 活 函 数 、 在 训练 期 间 
随机 抑制 神经 元 ， 以 及 拥有 大 量 数据 、 用 深度 代 符 宽度、 使 用 卷 积 层 。 
把 它们 结合 起 来 使 用 ， 是 创建 能 够 像 人 类 一 样 或 更 好 地 对 图 片 进行 分 类 
的 网 络 的 部 分 主要 因素 。 


从 技术 上 讲 ， 神 经 网 络 在 识别 图 像 中 的 物体 方面 比 人 类 做 得 更 好 ， 
我 们 对 这 个 事实 需要 标 一 个 大 大 的 星 号 。 至 少 有 一 个 网 络 确实 超过 了 人 
类 辩 识 细 粒 上 度 类 别 的 能 力 ， 但 网 络 的 优势 在 于 ， 它 是 针对 狭 窜 的 、 特 定 
类 别 的 物体 进行 训练 的 ， 例 如 训练 数据 中 的 120 个 犬 种。 在 许多 情况 
站， 网 络 可 以 正确 识别 狭窄 类 型 的 物品 ， 如 褐 翅 鸦 鹏 、 匈 牙 利 牧羊 犬 、 
旦 后 构 兰 ， 而 人 类 一 般 只 能 根据 它们 的 大 类 来 识别 ， 例 如 布谷 鸟 、 牧 诗 
犬 和 兰花 ， 甚 至 可 能 只 识别 出 鸟 、 狗 和 花 。 与 计算 机 相 比 ， 人 类 有 机 会 
研究 这 些 关 别 ，ImageNet 挑 战 赛 背后 的 研究 人 员 发 现 ， 人 类 研究 得 越 
多 ， 表 现 束 越 好 ， 但 事实 仍然 是 ， 人 类 是 不 完美 的 。*= 











神经 网 络 也 有 上 自身 的 弱点 。 打 败 人 类 的 算法 仍然 会 在 识别 图 片 中 的 
物体 时 出 错 ， 而 人 类 在 识别 这 些 物体 时 不 会 有 任何 困难 。 三 我 们 甚至 可 
以 为 神经 网 络 制造 视 错 觉 来 “欺骗 "它们 ， 让 它们 确信 上 自己 看 到 了 实际 上 
并 不 存在 的 物体 ， 而 对 人 类 而 言 ， 视 错觉 就 像 是 抽象 艺术 。 在 一 个 采 例 
中 ， 有 5 列 红色 缝 线 的 白色 背景 可 以 诱 使 神经 网 络 认 为 它 看 到 了 棒球 ; 
再 如 ， 黑 色 、 灰 色 和 橙色 的 涟 浜 状 图 案 会 让 神经 网 络 确信 它 看 到 了 芝 企 
RG; 叉 如 ， 一 组 精心 放置 的 矩形 网 格 会 让 神经 网 络 确信 它 看 到 了 逮 控 
费 。 同 样 ， 我 们 也 可 以 制造 一 种 视 错觉 ， 在 人 类 看 来 它 像 茶 个 物体 ， 而 
在 神经 网 络 看 来 它 就 像 完 全 不 同 的 物体 。 三 这 种 现象 的 原因 在 于 神经 网 
络 解释 图 片 的 独特 方式 。 
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UE A 


假设 我 们 给 你 的 宠物 狗 担 了 一 张 照片 ， 就 像 我 们 在 上 一 章 中 用 于 训 
练 的 照片 那样 ， 然 后 我 们 通过 郑 积 神经 网 络 传递 这 张 照片 。 只 要 我 们 知 
道 网 络 的 权重 ， 网 络 就 会 按照 预期 逐 层 激活 。 在 每 一 层 中 ， 当 神经 元 对 
图 片 中 的 不 同 模式 做 出 反应 时 ， 有 些 神 经 元 会 保持 黑暗 ， 而 有 些 则 会 腕 
起 来 。 由 于 我 们 把 宠物 狗 的 照片 传 到 了 神经 网 络 中 ， 那 么 当 我 们 观察 网 
络 的 深层 次 〈 比 如， 第 4 层 或 第 5 层 ) 时 ， 神 经 元 就 会 表现 出 我 们 或 许可 
以 辨识 的 物体 部 分 。 那 些 对 毛色 和 部 分 狗 脸 做 出 反应 的 神经 元 会 明 腕 地 
发 光 。 如 果 我 们 看 最 后 一 层 ,“ 狗 神经 元 ”将 会 友 光 ， 而 剩 下 的 大 部 分 神 
经 元 都 是 暗 的 。 








这 便 是 有 趣 之 处 。 在 上 一 章 中 ， 当 我 们 第 一 次 训练 网 络 时 ， 我 忽略 
了 一 些 关 于 如 何 为 每 个 训练 样 例 调整 网 络 权重 的 细节 。 请 记 住 ， 训 练 网 
络 的 算法 会 根据 网 络 末 端的 “ 狗 神 经 元 ”的 “不 正确 程度 ”来 调整 权重 。 它 
使 用 了 一 个 数学 函数 来 衡量 网 络 输出 与 训练 样本 标签 的 接近 程度 。 这 个 
标签 只 是 1 或 0， 用 来 描述 图 片 中 是 否 有 狗 。 然 后 ， 训 练 网 络 的 算法 会 利 
用 初级 的 微 积分 知识 计算 出 应 该 昌 哪 个 方 癌 调整 网 络 的 权重 ， 以 便 网 络 
下 一 次 可 以 更 准确 地 预测 输出 值 。 





如 傈 不 是 调整 网 络 的 权重 使 其 更 符合 图 片 ， 而 是 调整 图 片 使 其 更 符 
合 网 络 ， 会 如 何 ? 换言之 ， 我 们 对 网 络 进 行 了 训练 ， 如 果 保 持 网 络 的 权 
重 不 变 ， 调 整 输入 图 片 ， 比 如 一 张 云 东 的 照片 ， 使 “ 狗 神 经 元 ”更 明 有 党 ， 
而 其 他 神经 元 保持 黑暗 ， 会 如 何 ? 


如 宋 这 样 调整 图 片 ， 每 次 调整 少许 像素 ， 然 后 重复 ， 那 么 我 们 实际 


上 会 逐渐 在 照片 中 看 到 狗 ， 即 便 一 开始 根本 没有 狗 ! 三 事实 上 ， 上 一 章 
中 的 一 些 图 片 就 是 这 样 生成 的 : 一 组 深度 学 习 的 研究 人 员 采 用 了 一 个 类 


似 AlexNet 的 网 络 ， 调 整 输入 图 像 ， 使 茶 些 神经 元 “例如 代表 大 日 效 或 
沙漏 的 神经 元 ) 变 得 明 壳 ， 而 其 他 神经 元 仍 保持 黑暗 。 三 谷歌 的 研究 人 
员 使 用 了 类 似 的 方法 来 分 析 他 们 的 神经 网 络 。 当 写 到 如 何 做 到 这 一 点 

时 ， 他 们 举 了 几 个 例子 。 在 其 中 一 个 例子 中 ， 他 们 观察 了 一 个 可 以 识别 
哑铃 《你 可 以 在 健身 房 看 到 这 种 东西 ) 的 神经 元 生成 的 图 片 。 他 们 发 现 
A SEAMS, (ARATE AMR HLA AGRI. WA, RIIN 
察 到 ， 网 络 识别 哑铃 的 重要 的 区 别 性 特征 不 仅仅 是 哑铃 本 身 ， 还 包括 哑 
铃 的 使 用 环境 。 三 

















谷歌 用 类 似 的 方式 创建 了 目 己 的 “ 深 梦 ?图 片 ， 只 是 他 们 没有 强迫 网 
络 生成 狗 或 其 他 特定 物体 的 图 片 ， 而 是 让 网 络 创造 更 多 它 在 图 片 中 看 到 
的 东西 。 正 如 “ 深 梦 ”的 工程 师 在 谷歌 的 研究 博客 上 写 的 那样 : 





我 们 同样 可 以 让 网 络 做 出 决定 ， 而 不 是 精确 地 规定 我 们 希望 网 络 放 
大 哪些 特征 。 在 这 种 情况 下 ， 我 们 只 需 向 网 络 提 供 任意 图 像 或 照片 ， 并 
让 它 分 析 图 片 。 然 后 ， 我 们 选择 一 个 层 ， 并 要 求 网 络 增强 它 检测 到 的 内 
容 。 网 络 的 每 一 层 都 在 不 同 的 抽象 层次 上 处 理 特征 ， 因 此 我 们 生成 的 特 
征 的 复杂 度 取 决 于 我 们 选择 增强 哪 一 层 。 例 如 ， 较 低 的 层 倾向 于 产生 笔 
画 或 简单 的 装饰 状 图 案 ， 因 为 这 些 层 对 诸如 边缘 及 其 方向 这 样 的 基本 特 
征 很 敏感 。 


如 果 我 们 选择 可 以 识别 图 片 中 更 复杂 特征 的 更 高 级 别 的 层 ， 就 会 出 
现 复杂 的 特征 甚至 整个 物体 。 又 一 次 ， 我们 从 现 有 的 图 片 开始 ， 把 它 交 
给 我 们 的 神经 网 络 。 我 们 告诉 网 络 : “无 论 你 在 图 片 里 看 到 什么 ， 我 都 
想 要 更 多 ! ”这 就 形成 了 一 个 反馈 循环 : 如 果 云 条 看 起 来 有 点 像 鸟 ， 那 
么 网 络 就 会 让 它 看 起 来 更 像 鸟 。 这 有 反 过 来 又 会 使 网 络 在 下 一 次 图 片 通过 
时 更 加 强烈 地 识别 出 鸟 ， 以 此 类 推 ， 直 到 有 一 只 非常 细致 的 鸟 仿佛 从 天 
而 降 一 样 出 现 。 人 这/ 


Imgur.com 网 站 上 的 神秘 图 片 束 是 这 样 被 创造 出 来 的 。 在 图 


10.2 b) 中 ， 你 可 以 看 到 “ 深 梦 ?生成 的 图 片 ， 这 是 把 一 张 小 猫 的 照片 喂 
给 类 似 的 算法 所 产生 的 结 


谷歌 的 博客 文章 发 表 后 不 久 ， 其 他 研究 人 员 开 始 使 用 类 似 的 想法 重 
新 构想 艺术 风格 。 他 们 创造 了 一 些 工 具 ， 使 任何 人 都 可 以 把 艺术 家 的 绘 
画 风 格 迁 移 到 完全 不 同 的 图 片上 。 如 果 你 想 让 你 家 人 的 照片 看 起 来 像 文 
森 特 : 焚 高 画 的 一 样 ， 你 只 需要 让 你 的 照片 通过 其 中 一 个 程序 。 


在 这 些 程序 中 ， 风 格 图 像 〈 焚 高 的 画 〉 通 过 网 络 传 递 ， 让 神经 元 像 
往 第 一 样 忱 起 来 。 友 光 的 神经 元 包括 前 儿 层 的 一 些 低 级 “边缘 探测 器 ”以 
及 较 深 层次 的 高 级 “物体 探测 圳 ”。 然 后 ， 风 格 转换 算法 检测 每 个 层 中 的 
过 滤器 如 何在 整 张 图 片 中 相互 关联 。 这 种 关联 正 是 这 些 算法 定义 艺术 家 
风格 的 方式 。 如 果 菏 些 过 滤器 倾 问 于 在 图 片 的 不 同 部 分 让 神经 元 彼此 一 
致 亮 起 ， 根 据 推理 ， 这 就 表明 艺术 家 的 风格 中 有 一 些 重 要 的 特 点 。 如 果 
艺术 家 倾向 于 只 使 用 几 种 简单 的 颜色 和 许多 小 点 ， 那 么 解释 这 些小 点 的 
神经 元 往往 会 役 此 一 致 腕 起 。 如 果 艺 术 家 倾 问 于 使 用 锐利 的 笔触 ， 那 么 
捕捉 到 这 些 锐利 笔触 的 神经 元 无 论 在 什么 位 置 都 会 一 致 党 起 。 








然后 , “内 容 ? 图 像 〈 比 如 你 的 全 家 福 照片 ) 将 通过 同一 网 络 的 另 一 
个 副本 传递 ， 我 们 选择 网 络 的 一 个 特定 层 来 捕捉 图 像 内 容 的 精华 。 一 旦 
我 们 选择 了 这 一 层 ， 算 法 就 会 调整 全 家 福 照 片 ， 使 每 一 层 中 的 神经 元 按 
照 与 风格 图 像 相同 的 方式 相互 关联 ， 但 算法 不 允许 我 们 所 选择 的 层 中 的 
神经 元 偏离 它们 的 原始 值 太 远 。 只 要 我 们 的 假设 是 正确 的 ， 即 每 一 层 的 
过 滤器 表达 的 相关 性 可 以 捕捉 一 个 艺术 家 的 风格 ， 那 么 这 就 会 使 新 图 片 
呈现 出 第 一 张 图 片 的 风格 。 在 实践 中 ， 这 似乎 是 一 个 合理 的 假设 ， 因 为 
算法 的 结果 与 我 们 的 直觉 相符 : 当 算法 运行 完毕 时 ， 你 的 全 家 福 照片 将 
被 “重新 想象 成 焚 融 的 画作 ， 或 者 是 你 用 于 风格 图 像 的 任何 其 他 绘画 风 
格 ! 二 在 图 10.2(c) 4010.2 Cd) 中， 我 对 这 三 只 小 猫 的 照片 使 用 了 相 
同 的 方法 。 正 如 你 所 看 到 的 ， 由 此 产生 的 图 片 捕捉 到 了 我 们 在 不 同 艺术 
风格 中 所 期 得 的 直观 感觉 其 中 一 幅 图 具有 强烈 的 笔触 效果 ， 会 让 我 们 








联想 到 焚 高 的 一 些 最 著名 的 作品 ， 比 如 他 的 自画像 ， 而 另 一 幅 图 的 风格 
让 人 联想 到 卡通 形象 ， 这 种 风格 被 称 为 “辛普森 风格 ”。 





(b) 





810.2 (a) 一 张 寄养 小 猫 的 照片 。 (b) HAM KEHEE, AT ARE” A 
法 多 次 迭代 后 ， 网 络 所 看 到 的 图 片 。 (c) (d) 使 用 了 风格 转换 算法 的 图 片 。 (c) 


eT X RAE S MESURE Xe, (d) 使 用 了 《辛普森 一 家 》 的 创作 风格 。 除 
(a) 外 ， 所 有 图 片 都 是 通过 https://deepdreamgenerator. com 生 成 的 


当 这 个 算法 “重新 想象 ”你 的 全 家 福 照 片 时 ， 请 记 住 此 时 没有 真正 
的 “想象 ” 友 生 。 网 络 只 是 处 理 风 格 图 像 和 内 容 图 像 ， 其 神经 元 分 别 以 可 
预测 的 方式 对 二 者 发 光 ， 然 后 算法 调整 内 容 图 像 以 优化 一 个 明确 定义 的 
数学 函数 ， 使 网 络 中 激活 的 神经 元 按照 与 风格 图 像 一 臻 的 方式 相互 天 
联 。 对 一 个 计算 机 程序 而 言 ， 最 终 的 结果 可 能 看 起 来 很 壮观 ， 但 这 主要 
古 因为 这 些 网 络 使 用 抽象 来 执行 它们 的 操作 ， 而 这 种 抽象 比 我 们 通常 对 
计算 机 程序 的 抽象 期 望 层次 要 高 。 直 到 最 近 ， 我 们 才 开 始 期 望 计算 机 能 
够 在 非常 原始 的 水 平 上 对 图 像 进行 操作 ， 因 为 这 是 它们 所 能 做 的 一 切 。 
你 的 家 庭 照 上 编辑 软件 里 就 有 工具 ， 可 以 让 你 调整 照 上 请 的 色彩 平衡 或 对 
照片 进行 柔 化 。 但 现在 ， 这 些 操作 都 可 以 用 卷 积 神经 网 络 的 最 低级 别 来 
实现 。 但 是 ， 我 在 本 章 中 描述 的 算法 在 更 抽象 的 层次 上 对 图 像 进行 操 
作 ， 通 过 使 用 网 络 深 处 的 几 层 神 经 元 来 解释 和 调整 图 像 。 这 是 这 些 网 络 
的 主要 优势 ， 也 是 它们 可 以 被 应 用 于 许多 独特 的 、 非 直观 的 应 用 的 原因 
ra 








在 过 去 的 几 章 中 ， 我 们 已 经 对 深度 神经 网 络 如 何 使 计算 机 以 非 
常 * 人 性 化 ”的 方式 解释 和 处 理 图 像 有 了 一 些 直 观 的 认识 。 但 到 目前 为 
止 ， 我 们 的 重点 一 直 集 中 在 使 用 深度 神经 网 络 来 解释 视觉 信息 上 。 是 否 
有 可 能 使 用 深度 神经 网 络 来 更 好 地 解释 和 处 理 其 他 类 型 的 媒体 ， 如 音频 
和 书面 文本 ? 你 将 在 下 一 章 看 到 ， 答 案 是 肯定 的 。 深 度 神经 网 络 在 这 些 
领域 效果 不 错 ， 部 分 原因 是 我 们 在 这 些 领域 同样 拥有 大 量 的 数据 。 但 是 
你 很 快 束 会 看 到 ， 我 们 需要 开发 一 些 新 的 神经 网 络 工具 来 处 理 这 些 不 同 
类 型 的 数据 ， 新 工具 类 似 于 卷 积 过 滤器 ， 但 是 可 以 被 用 于 时 间 序 列 数 
Pio 











1. 如 果 我 们 不 小 心 ， 图 片 最 终 可 能 看 起 来 不 自然 ， 因 为 像素 可 能 会 使 用 极端 的 颜色 ， 
而 相 邻 像素 可 能 会 使 用 过 渡 不 自然 的 不 同 颜 色 。 研 究 人 员 发 现 ， 他 们 可 以 通过 奖励 附近 
的 像素 使 用 相似 的 颜色 ， 以 及 通过 奖励 像素 为 灰色 ， 而 不 是 极 亮 或 极 暗 的 颜色 ， 来 做 到 
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11 能 听 、 能 说 、 能 记忆 的 神经 网 络 


HLA a, “理解 ?意味 痢 什 么 ? 


在 过 去 的 几 章 中 ， 我 们 大 部 分 时 间 都 在 研究 深度 神经 网 络 如 何 识别 
图 像 中 的 物体 。 我 之 所 以 关注 这 些 网 络 ， 很 大 程度 上 是 因为 本 书 中 的 许 
多 机 器 都 使 用 某 种 形式 的 视 沉 来 感知 周围 的 世界 。 但 是 ， 如 果 我 们 希望 
机 右 有 其 他 方式 与 世界 互动 ， 比 如 生成 英语 句子 ， 或 者 理解 人 类 的 语 
言 ， 该 怎么 办 ? 卷 积 神经 网 络 在 这 方面 还 会 有 用 吗 ? 还 有 其 他 神经 网 络 
的 “基本 元 素 ” 会 有 帮助 吗 ? 更 进一步 讲 ， 使 用 神经 网 络 来 完成 理解 语言 
这 样 的 任务 有 意义 吗 ? 








问题 的 答案 都 是 肯定 的 。 在 本 章 中 ， 我 们 将 简要 介绍 如 何 做 这 些 事 
情 。 然 而 ， 在 我 们 讨论 这 些 细节 之 前 ， 让 我 先 明 确 一 下 我 所 说 的 能 
够 “理解 "人 类 语言 的 计算 机 程序 是 什么 意思 。 我 们 距离 拥有 能 像 人 类 那 
样 理 解 人 类 语言 的 机 器 还 有 很 长 的 路 要 走 。 然 而 ， 我 们 已 经 知 道 如 何 创 
建 可 以 把 一 个 人 的 讲话 录音 转换 成 书面 文字 的 计算 机 程序 ， 这 项 任务 通 
常 被 称 为 语音 识别 。 这 些 算法 处 理 录音 的 方式 与 AlexNet 处 理 图 片 的 方 
式 是 一 样 的 :它们 对 录 首 进行 分 类 ， 用 人 类 可 解释 的 标签 一 一 单词 ， 来 
标记 。 正 如 检测 图 片 中 物体 的 算法 可 以 与 人 类 的 准确 性 相 妮 美 一 样 ， 我 
们 的 语 普 识别 算法 现在 也 能 与 人 类 识别 语 首 的 能 力 相 妇 

















深度 语音 识别 系统 


请 想象 ， 假 设 你 被 分 配 了 一 个 任务 ， 任 务 要 求 你 设计 一 个 可 以 转录 
人 类 语言 的 神经 网 络 。 你 会 从 何 下 手 ? 网 络 的 输入 会 是 什么 样子 ， 它 的 
输出 是 什么 ? 你 会 使 用 多 少 层 ， 如 何 将 这 些 层 连接 起 来 ? 要 回答 这 些 问 
题 ， 我 们 可 以 看 看 网 络 搜索 巨头 百度 构建 的 语音 识别 系统 。 百 度 的 网 络 
转录 语音 的 能 力 可 以 旭 美 人 类 ， 它 之 所 以 能 做 到 这 一 点 ， 与 谷歌 的 网 络 
在 图 片 分 类 方面 能 媲美 人 类 的 原因 一 样 : 从 大 量 数据 开始 。 百 度 用 了 
11940 个 小 时 ， 即 超过 一 整 年 时 间 的 英语 口语 来 训练 他 们 最 好 的 语 首 区 
络 之 一 。 就 像 AlexNet 的 创建 者 通过 变换 ImageNet 中 的 图 片 来 增加 训练 
数据 一 样 ， 百 度 也 通过 变换 样本 来 扩充 语音 数据 集 : 他 们 拉 长 录音 ， 改 
变 录 首 的 频率 ， 增 加 噪声 ， 这 样 他 们 拥有 的 数据 量 环比 开始 时 增加 了 许 
多 倍 。 三 无 论 哪 种 情况 ， 他 们 都 没有 改变 语音 的 内 容 ， 他 们 只 是 改变 了 
说 话 的 方式 。 但 是 ， 拥 有 大 量 的 训练 数据 本 喘 并 不 足以 建立 一 个 能 够 准 
确 转 录 语 首 的 网 络 ， 他 们 还 需要 选择 正确 的 网 络 架 构 。 








我 们 想 要 的 神经 网 络 可 以 把 录 首 作为 输入 ， 然 后 生成 字母 序列 〈 即 
录音 的 书面 转录 ) 作为 输出 。 对 于 语音 网 络 的 输入 ， 我 们 可 以 使 用 录音 
的 声 谱 图 。 声 谱 图 通过 描述 录音 中 的 不 同 频率 随时 间 变 化 的 强度 来 总 结 
录 首 。 你 可 以 把 声 详 图 视 为 黑 晶 图像 : x 轴 表 示 时 间 ，y 轴 表示 频率 ， 每 
个 像素 的 黑暗 程度 代表 录音 中 茶 一 时 刻 茶 一 频率 处 的 声音 强度 。 高 频 音 
调 的 声 谱 图 由 横 跨 声 详 图 项 部 的 一 条 暗 线 组 成 ， 而 低频 音调 的 声 谱 图 则 
由 横 跨 声 谱 图 底部 的 一 条 暗 线 组 成 。 几 个 声音 脉冲 会 在 图 像 中 显示 为 从 
左 到 右 穿 过 白色 背景 的 灰 度 斑点 。 正 如 你 可 以 将 录音 转换 成 声 谱 图 一 
样 ， 用 声 谱 图 也 可 以 重建 原始 录音 。 声 谱 图 可 以 对 录音 进行 编码 ， 这 意 
味 着 我 们 可 以 单独 将 声 谱 图 作为 输入 传递 给 神经 网 络 。 


既然 我 们 知道 录音 可 以 转换 成 图 像 ， 我 们 可 能 会 问 自 己 ， 网 络 是 否 
































应 该 有 一 些 卷 积 层 ? 答案 是 肯定 的 ， 这 就 是 百度 的 网 络 所 使 用 的 : 百度 
网 络 的 前 几 层 确实 是 卷 积 层 。 但 我 们 需要 的 不 仅仅 是 卷 积 层 。 我 们 需要 
一 种 明确 的 方法 让 神经 网 络 处 理 时 间 。 














1. Dario Amodei et al.,“Deep Speech2:End-to-End Speech Recognition in English and 
Mandarin,"arXiv preprint arXiv:1512.02595,2015. 


循环 神经 网 络 


与 时 间 序 列 数据 《或 任何 顺序 数据 ) 相互 作用 的 最 常见 的 神经 网 络 
类 型 是 循环 神经 网 络 (recurrent neural network， 下 文 简称 为 RNN) 。 
RNN 是 由 相同 的 神经 元 单元 组 成 的 神经 网 络 ， 它 们 在 一 个 系列 中 相互 馈 
送 ， 如 图 11.1 所 示 。 这 些 单元 共享 相同 的 权重 ， 就 像 郑 积 过 滤器 共享 相 
同 的 权重 一 样 。 唯 一 的 区 别 在 于 ， 共 享 相同 权重 的 卷 积 过 滤器 通常 不 会 
相互 馈送 。 男 一 方面 ，RNN 的 本 质 是 ， 每 个 RNN 单 元 将 其 输出 直接 馈 
送 到 下 一 个 RNN 单 元 ， 根 据 定 义 ， 下 一 个 RNN 单 元 的 权重 与 上 一 个 单 
元 相同 。 并 且 每 个 RNN 单 元 接受 其 输入 并 以 各 种 方式 对 其 进行 变换 ， 然 
后 再 输出 结果 。 这 了 就 是 RNN 的 神奇 之 处 : 它们 操作 数据 和 相互 传递 数据 
的 方式 使 它们 能 够 记录 状态 。 


输出 层 D e D 








WAR G) eo Gs) 


图 11. 1 RNN 单 元 在 时 间 上 展开 。 每 个 单元 都 有 一 个 状态 变量 h， 它 逐个 单元 地 转变 。 
转变 由 输入 x 和 前 一 个 单元 的 状态 决定 。 每 个 单元 还 生成 一 个 输出 y， 用 于 与 网 络 的 
其 余部 分 共享 关于 状态 的 信息 


我 们 简要 回顾 一 下 ， 是 什么 让 目 动 要 驶 汽车 能 够 表现 出 复杂 的 行 
为 ?它们 理解 环境 的 能 力 ， 即 它们 的 感知 能 力 ， 无 疑 是 至 关 重 要 的 。 但 
征 像 Boss 这 样 在 城市 环境 中 行驶 的 汽车 在 遇 到 复杂 情况 时 需要 一 些 方法 
来 做 出 明智 的 决策 。 在 Boss 的 推理 层 中 间 是 一 个 有 限 状态 机 《“ 即 它 的 大 
EIRA) ， 用 来 跟 踊 执行 任务 的 进度 。 随 看 Boss 在 其 任务 上 取得 进 
展 ， 它 在 大 富翁 棋盘 上 移动 一 枚 虚拟 的 棋子 来 跟踪 它 的 状态 : 它 现 在 在 
哪里 ， 下 一 步 可 以 去 哪里 ， 以 及 应 该 如 何 决 定 下 一 步 该 去 哪里 。 




















RNN 为 神经 网 络 提供 的 服务 与 大 富 僵 棋盘 为 Boss 提 供 的 服务 相同 。 
每 个 循环 单元 都 会 查看 它 的 当前 状态 ， 对 这 个 状态 做 《或 不 做 ) 一 些 处 
理 ， 有 时 还 要 根据 它 在 环境 中 的 感知 改变 状态 。 你 可 以 把 RNN 的 角色 想 
象 成 在 大 富 全 棋盘 上 移动 棋子 的 人 。 


当然 ， 这 与 Boss 的 大 富翁 棋盘 有 一 些 区 别 。 坚 无 疑问 ，Boss 的 有 限 
状态 机 具有 有 限 数量 的 状态 。RNN 的 状态 通常 用 浮 点 数 问 量 进行 编码 ， 
因此 RNN 中 状态 的 概念 更 加 灵活 : 它 是 高 维 空间 中 的 一 个 点 ， 它 在 这 个 
空间 中 的 位 置 定义 了 状态 的 语义 。 男 一 个 区 别 在 于 ， 像 Boss 这 样 的 自动 
敬 驶 汽车 中 的 有 限 状 态 机 是 人 工 制作 的 ， 有 一 些 人 简单 的 规则 ，Boss 将 尊 
循 这 些 规则 从 一 个 状态 转变 到 男 一 个 状态 。 


另 一 方面 ，RNN 中 的 状态 和 转变 基于 编码 到 其 神经 元 权重 中 的 规 
则 ， 而 这 些 权重 是 从 数据 中 学 习 到 的 。 也 就 是 说 ， 每 个 RNN 单 元 仍然 非 
Fafa ERI 它 只 需要 跟踪 和 更 新 状态 就 可 以 了 。 和 它 只 是 一 个 状态 更 新 融 。 
为 了 让 网 络 能 够 对 状态 做 一 些 有 趣 的 事情 ，RNN 蛙 元 通常 会 将 关于 状态 
的 消 恩 输出 到 网 络 的 其 他 部 分 。 对 于 我 们 的 语 首 网 络 ， 这 些 单 元 将 各 目 
的 消息 输出 到 更 深层 的 网 络 中 。 正 如 你 想象 的 那样 ， 有 了 足够 的 数据 ， 
语音 网 络 中 的 一 系列 循环 单元 束 会 学 习 那 些 有 助 于 总 结 人 类 语音 录音 的 
频 说 图 的 状态 。 他 们 会 了 解 到 茶 些 声音 是 常见 的 ， 而 茶 些 声音 往往 跟随 
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既然 我 们 有 了 RNN， 便 可 以 在 语音 网 络 的 不 同位 置 使 用 它们 。 正 如 


我 们 可 以 构建 指向 时 间 向 前 的 RNN 一 样 ， 我 们 也 可 以 构建 指向 时 间 向 后 
的 RNN， 以 便 它 们 学 习 以 不 同方 式 总 结 声 谱 图 的 状态 和 转变 。 我 们 还 可 
以 将 RNN 序 列 役 此 堆 县 在 一 起 ， 不 是 在 时 间 维 度 上 首尾 连接 ， 而 是 放 在 
彼此 的 顶部 ， 以 便 它 们 在 时 间 维 度 上 对 齐 ， 如 图 11.2 所 示 。 以 这 种 方式 
堆 登 RNN 与 拥有 多 个 卷 积 层 有 同样 的 好 处 : 随 着 我 们 逐步 深入 ， 每 个 
RNN 层 通过 发 现 上 一 层 中 最 显著 的 趋势 来 总 结 上 一 层 ， 从 而 建立 起 越 来 
越 蜗 的 抽象 级 别 来 推理 网 络 的 输入 。 一 旦 将 儿 层 RNN 堆 稚 在 一 起 ， 并 将 
它们 堆 苔 在 一 些 郑 积 层 的 顶部， 我 们 残 可 以 在 顶部 添加 一 个 全 连接 层 。 














因此 ， 语 音 网 络 将 声 谐 图 作为 输入 ， 并 使 用 一 个 看 起 来 酷似 
AlexNet 的 网 络 来 处 理 它 ， 只 是 这 个 网 络 在 卷 积 层 和 全 连接 层 之 间 夹 着 
一 些 RNN 层 ， 这 使 网 络 能 够 模拟 不 同 声音 之 间 的 转弯。 在 这 一 点 上 ， 我 
们 只 需要 一 种 方法 来 预测 网 络 输出 层 的 转录 。 








网 络 的 输出 层 是 神经 元 网 格 ， 网 格 的 一 个 方向 表示 时 间 ， 为 一 个 方 
问 表 示 英 文 <Alphabet" 中 的 字母 〈 以 及 字母 之 间 的 空格 ) 。 运 行 时 ， 网 
络 会 预测 每 个 字母 在 转录 过 程 中 的 任意 给 定时 刻 出 现 的 可 能 性 。 这 个 预 
测 被 编码 在 输出 值 中 : 如 果 字 母 〈 在 给 定时 刻 ) 更 有 可 能 出 现 ， 输 出 值 
就 更 高 ;反之 输出 值 就 更 低 。 但 是 这 给 从 录音 序列 中 预测 转录 融 来 了 一 
个 挑战 : 我 们 需要 把 输出 层 中 的 神经 元 与 实际 的 转录 对 齐 。 如 果 我 们 做 
最 简单 的 事情 ， 在 任意 给 定时 刻 提 取 最 可 能 出 现 的 字母 ， 那 么 我 们 最 终 
会 得 到 许多 重复 的 字母 ， 如 下 所 示 : 
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搜索 对 齐 方式 


全 连接 层 
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图 11.2 百度 深度 语音 识别 系统 的 架构 。 该 网 络 使 用 人 类 语音 录音 的 书面 转录 和 所 
谓 “ 连 接 时 序 分 类 ” (connectionist temporal classification, CTC) 的 概念 进 
行 训 练 ， 这 一 概念 搜索 标签 和 全 连接 层 之 间 的 对 齐 


解决 这 一 问题 〈 至 少 是 预测 字母 序列 的 任务 ) 的 一 种 方法 是 简单 地 
在 每 个 时 刻 提取 最 有 可 能 的 字符 串 ， 然 后 删除 重复 的 字母 。 三 这 通常 会 
得 到 一 种 看 似 合理 但 或 许 稍 有 错误 的 转录 : 


Yn» 


what is the weather like in bostin right now? - 


(翻译 为 : bostin 现 在 的 天 气 怎 么 样 ? ) 





请 注意 ,“Boston” GREW) 这 个 词 显然 被 拼 错 了 ， 但 发 音 是 正确 
的 。 有 时 候 ， 转 录 在 语音 上 大 体 正 确 ， 但 看 上 去 更 像 是 衣 言 乱 语 ， 例 如 
下 面 这 个 转录 : 


arther ntickets for the game. — 


这 人 句 话 应 该 被 转录 成 : “Are there any tickets for the game?" (Hit 
K: 有 这 场 比赛 的 票 吗 ? ) 


我 们 可 以 用 英语 单词 序列 的 统计 数据 来 修正 这 些 转录 。 为 了 直观 了 
解 这 有 何 帮 助 ， 请 看 下 面 两 句 话 哪 一 句 听 起 来 更 自然 ? 





Q People he about spilled thing the fun secret most of the 


the was blender. 


Q He spilled the secret of the blender was the most fun 
thing about people. 
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可 能 会 认为 第 二 句 听 起 来 更 上 自然。 如 果 你 更 仔细 地 观察 这 人 句 话 ， 并 从 中 
任意 选取 三 个 连续 的 单词 ， 这 些 单 词 就 像 你 在 普通 句子 中 找到 的 一 样 流 
畅 ， 而 第 一 句 就 并 非 如 此 。 百 度 的 研究 人 员 也 采用 了 同样 的 想法 ， 根 据 
单词 在 英文 文本 中 出 现 的 频 紊 ， 记 录 哪些 单词 集合 (最 长 可 包括 5 个 单 
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计数 据 可 以 大 大 缩小 可 能 的 转录 范围 。 作 为 另 一 个 练习 ， 你 可 以 看 看 你 
是 否 可 以 预测 这 个 单词 序列 中 接 下 来 的 词 : 


rain fell from the 
(翻译 为 : 雨 从 BF. ) 


显然 ， 这 人 句 话 能 以 “天 空 ” 或 “云彩 ”这 样 的 词 结尾 。 因 此 ， 即 使 这 上 段 
录音 客观 上 听 起 来 更 像 是 “rain fell from this guy”( 翻 译 为 : 雨 从 这 家 伙 
身上 落下 ) ， 百 度 的 语音 识别 系统 也 会 使 用 语言 统计 数据 选择 一 个 更 
像 “rain fell from the sky”( 翻 译 为 : 雨 从 天 上 落下 ) 的 转录 。 


接 下 来 ， 百 度 的 语音 系统 使 用 一 种 搜索 算法 ， 根 据 语音 网 络 的 输出 
层 和 来 自 其 他 地 方 的 单词 序列 统计 信息 ， 找 到 最 匹配 的 字母 序列 。 这 个 
搜索 算法 与 Boss 在 停车 场 停车 的 路 径 搜 索 算 法 非常 类 似 ， 不 同 的 是 ， 语 
音 系统 不 是 寻找 一 种 组 合 小 段 路 径 的 方法 ， 而 是 搜索 字母 序列 ， 语 音 系 
统 并 不 在 其 成 本 函数 中 使 用 时 间 和 风险 等 因 系 ， 而 是 试图 最 大 限度 地 提 
局 不同 字 母 和 单词 出 现在 其 转录 中 的 可 能 性 ， 参 考 的 是 网 络 的 预测 和 这 
些 词 在 “五 词语 言 模 型 ”中 的 统计 数据 。 
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为 图 像 生 成 字幕 


虽然 上 面 这 样 的 语音 识别 系统 可 以 准确 地 转录 录音 ， 但 它们 并 不 能 
理解 录音 的 内 容 。 我 们 还 远 远 没 有 能 够 理解 语言 的 网 络 ， 但 研究 人 员 已 
经 找到 了 让 RNN 网 络 看 起 来 似乎 能 够 理解 语言 的 方法 。 最 近 的 一 项 突破 
征 ， 网 络 可 以 创造 出 听 起 来 很 目 然 的 短语 字幕 ， 以 此 描述 图 像 内 容 。 


这 些 图 像 字 幕 算 法 的 悚 人 之 处 在 于 ， 从 理解 图 像 到 生成 一 系列 单词 
来 描述 图 像 ， 一 切 都 是 通过 神经 网 络 完成 的 (除了 男 一 种 搜索 算法 ， 我 
们 稍 后 会 看 到 ) 。 为 了 了 解 这 些 算法 ， 让 我 们 快速 浏览 一 下 它们 的 “前 
奉 ”， 这 些 “ 前 寿 ? 把 算法 在 图 像 中 检测 到 的 物体 的 名 称 填 到 模板 中 。 这 
些 算法 的 输出 束 像 是 你 能 指望 计算 机 程序 说 出 来 的 典型 的 “ 儿 语 ”: 


There are one cow and one sky.The golden cow is by the blue sky. 
(翻译 为 : 有 一 头 牛 和 一 片 天 空 。 人 金牛 在 蓝天 旁边 。) 
Pine ATS: 


This is aphotograph of one sky,one road and one bus.The blue sky is 
above the gray road.The gray road is near the shiny bus.The shiny bus is near 


the blue sky. 三 


(翻译 为 : 这 是 一 张 有 一 片 天 空 、 一 条 路 和 一 辆 公共 汽车 的 照片 。 
蓝天 在 灰色 的 道路 上 方 。 灰 色 的 道路 靠近 闪闪 发 亮 的 公共 汽车 。 闪 闪 发 
腕 的 公共 汽车 车 近 蓝天 。) 


虽然 这 些 算 法 确实 阐述 了 场景 ， 但 它们 也 很 奇怪 : 照片 中 闪闪 友 腕 
的 公共 汽车 确实 靠近 蓝天 ， 但 从 语义 上 讲 ， 公 共 汽 车 靠近 天 空 吏 很 奇怪 


了 。 然 而 ， 我 们 能 指望 计算 机 说 出 来 的 话 正 是 这 样 的。 你 希望 你 的 图 像 
处 理 软 件 可 以 对 图 像 执 行 低级 的 图 像 操 作 ， 例 如 调整 色彩 平衡 、 模 糊 像 
素 ， 但 并 不 指望 更 复杂 的 操作 。 我 们 同样 不 能 指望 计算 机 以 复杂 的 方式 
使 用 语言 。 


另 一 方面 ， 生 成 字幕 的 神经 网 络 方法 可 以 创建 如 下 描述 : 
A group of people shopping at an outdoor market 

A group of people sitting in aboat in the water 

and 


A giraffe standing in aforest with trees in the background. 三 ' 


(翻译 为 : 一 群 人 在 露天 市 场 购物 ， 一 群 人 坐 在 水 里 的 一 条 船上 ， 
还 有 一 只 长 颈 氏 站 在 森林 里 ， 背 景 是 树木 。) 


生成 这 种 字幕 的 神经 网 络 使 用 一 系列 变换 ， 将 照片 转换 成 一 系列 的 
单词 。 在 第 一 个 变换 中 ， 它 们 使 用 卷 积 神经 网 络 来 处 理 图 像 。 这 与 
AlexNet 处 理 图 像 的 方式 非常 相似 ， 只 是 网 络 不 是 预测 图 像 中 是 否 有 不 
同 的 物体 ， 而 是 将 图 像 编码 成 庞大 的 数字 矢量 ， 从 而 为 网 络 的 其 余部 分 
提供 关于 场景 的 简洁 描述 。 一 旦 算法 得 到 图 像 的 天 量 摘要 ， 那 么 由 一 系 
列 RNN 单 元 组 成 的 网 络 的 其 余部 分 束 会 生成 它 的 字幕 。 和 之 前 一 样 ， 
RNN 单 元 由 它们 的 状态 连接 起 来 ， 链 中 的 每 个 单元 分 别 输出 字幕 的 一 个 


单词 ， 如 图 11.3 所 示 。 二 
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图 11. 3 一 种 图 像 字 幕 神经 网 络 。 每 个 RNN 单 元 的 状态 总 结 已 生成 的 字幕 的 数量 。 每 
个 单元 的 输出 是 单词 的 概率 分 布 ; 每 个 单元 的 输入 是 先前 生成 的 单词 。 第 一 个 单元 
的 输入 是 卷 积 神经 网 络 的 输出 


这 样 一 个 简单 的 网 络 如 何 产生 连贯 的 英文 字幕 ? 请 回忆 循环 单元 的 
关键 特性 ， 它们 使 神经 网 络 能 够 记录 状态 。 随 着 我 们 在 这 条 链 上 走 得 更 
远 ， 状 态 束 会 发 生变 化 ， 这 样 网 络 就 能 记录 已 经 说 过 和 没有 说 过 的 内 
容 。 当 每 个 单元 检查 其 当前 状态 并 输出 一 个 新 单词 时 ， 它 会 更 新 其 内 部 
状态 ， 以 便 下 一 个 循环 单元 可 以 完成 它 的 工作 。 为 了 帮助 每 个 单元 更 新 
状态 ， 每 个 循环 单元 的 输入 残 是 前 一 个 循环 单元 输出 的 单词 。 


我 们 可 以 将 搜索 算法 附加 a 到 网 络 项 部 ， 以 此 改进 网 络 生成 字 大 的 方 
式 ， 就 像 百 度 对 其 语 首 识别 系统 所 做 的 那样 ， 你 可 能 对 此 不 会 感到 尺 


讶 。 从 技术 上 讲 ， 神 经 网 络 的 输出 层 对 应 于 每 个 时 间 步 、 每 个 单词 都 有 
一 个 神经 元 ; 它 的 输出 值 可 以 组 合 起 来 ， 以 预测 每 个 单词 作为 序列 中 的 
下 一 个 单词 出 现 的 可 能 性 。 根 据 我 在 几 页 前 展示 的 例子 ， 你 可 能 会 猜 

到 ， 无 论 图 像 中 有 什么 ， 第 一 个 单词 很 可 能 是 “a”( 一 个 ) 。 如 果 图 像 
中 有 一 只 猎 ， 那 么 下 一 个 单词 很 可 能 就 是 “cat”( 猫 ) ， 等 等 。 





搜索 算法 不 是 只 运行 一 次 模型 并 在 每 次 面临 选择 时 选择 最 可 能 的 单 
词 ， 而 是 多 次 运行 模型 以 生成 多 个 单词 序列 。 每 当 它 需要 选择 一 个 单词 
时 ， 它 都 会 选择 在 模型 下 很 可 能 出 现 的 单词 ， 但 搜索 算法 会 在 最 有 希望 
的 “候选 字幕 ”中 进行 严格 搜索 : 在 茶 些 迭代 中 ， 它 可 能 选择 “furry”( 毛 
BO 而 不 是 “cat”， 等 等 。 一 旦 算法 多 次 运行 模型 以 生成 许多 可 能 的 短 
语 ， 它 束 会 根据 成 本 函数 来 评估 每 个 短语 ， 这 个 成 本 函数 会 根据 网 络 衡 
量 每 个 单词 序列 的 可 能 性 ， 从 而 在 众多 短语 中 找到 最 好 的 字幕 。 三 
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4. Vinyals et al.,“Show and Tell.” 
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长 短 时 记忆 网 络 


由 于 RNN 有 相互 馈送 的 单元 ， 我 们 可 以 把 它们 看 作 在 时 间 上 展开 的 
深度 网 络 。 三 在 很 长 一 段 时 间 里 ，RNN 不 能 被 构建 得 太 深 ， 因 为 我 们 
在 训练 期 间 需 要 通过 这 些 单元 链 发 送信 息 ， 而 信息 在 通过 链 的 过 程 中 会 
脓 减 。 越 是 深入 循环 单元 的 链 ， 信 息 就 越 容 易 被 遣 起。 研究 社 区 解决 这 
一 问题 的 一 种 方法 是 使 用 控制 神经 元 来 调整 循环 单元 解释 和 修改 其 状态 
的 方式 ， 如 图 11.4 所 示 。 三 你 可 以 把 这 些 控制 神经 元 想象 成 特殊 的 导 
线 ， 它 们 可 以 改变 神经 元 的 行为 方式 。 这 些 控制 线 就 像 数字 时 钟 上 
的 “设置 ?按钮 ， 可 以 让 你 设置 时 间 。 如 果 你 按 下 设置 按钮 ， 时 钟 会 进入 
一 个 特殊 的 模式 ， 此 时 你 按 下 其 他 按钮 便 可 以 修改 时 间 。 修 改 完成 后 ， 
你 可 以 将 时 钟 恢 复 到 正常 模式 ， 即 一 秒 一 秒 地 往 前 走 。 三 在 这 些 RNN 
上 设置 了 控制 线 后 ， 它 们 的 状态 就 可 以 像 时 钟 一 样 更 新 ， 否 则 ， 它 们 会 
根据 其 正常 规则 变换 状态 。 谷 歌 的 图 像 字 大 网 络 以 及 其 他 场合 使 用 的 这 
些 特殊 单元 ， 被 称 为 长 短 时 记忆 单元 ， 简 称 LSTM《〈 见 图 11.4) 。 
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E11. 4 RNN 中 的 LSTM。 这 个 特殊 的 LSTM 是 谷歌 用 于 其 图 像 字 幕 生 成 器 的 LSTM。 与 普 


1. Yann LeCun, Yoshua Bengio,and Geoffrey Hinton, Deep Learning,"Nature521(2015). 


2: Razvan Pascanu,Caglar Gulcehre,Kyunghyun Cho,and Yoshua Bengio,“How to Construct 
Deep Recurrent Neural Networks,” arXiv preprint arXiv:1312.6026,2013. 

3i 这 个 类 比 从 某 种 程度 上 讲 是 成 立 的 : 虽然 设置 手表 是 一 种 特殊 的 行为 ， 但 网 络 可 能 
会 定期 使 用 控制 线 。 
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对 抗 数 据 





虽然 这 些 算法 让 上 自动 机 更 接近 于 理解 人 类 自然 语言 ， 但 它们 仍然 非 
常 原始 ， 从 茶 种 意义 上 讲 ， 它 们 很 容易 出 错 ， 特 别 是 如 果 你 有 意 提 供 一 
些 划 在 欺骗 它们 的 输入 。 例 如 ， 我 们 在 上 一 半 中 看 到 ， 我 们 可 以 创造 视 
普 觉 ， 诱 使 神经 网 络 认为 它们 看 到 了 实际 上 并 不 存在 的 东西 。 同 样 ， 把 
这 样 的 图 像 传递 给 生成 字幕 的 网 络 ， 也 很 容易 让 网 络 出 错 。 机 器 学 习 领 
域 的 研究 人 员 会 把 这 样 的 输入 称 为 对 抗 数据 ， 即 旨 在 欺骗 机 需 学 习 模型 
的 数据 。 


利用 对 抗 数据 来 欺骗 神经 网 络 的 想法 很 重要 ， 因 为 通过 了 解 什么 样 
的 图 像 可 以 欺骗 这 些 网 络 ， 我 们 还 可 以 了 解 如 何 使 它们 更 强大 。 最 近 在 
深度 学 习 领 域 的 一 些 很 有 前 景 的 工作 采用 了 这 种 思想 ， 以 此 训练 能 够 生 
成 逼真 图 像 的 网 络 。 三 系统 的 一 部 分 尽力 生成 与 你 关心 的 某 类 别 图 像 类 
似 的 图 像 ， 例 如 猪 脸 的 图 片 ， 而 系统 的 另 一 部 分 则 尽力 和 弄 清 楚 生 成 的 图 
像 是 否 来 自 这 个 类 别 。 这 些 “ 生 成 对 抗 网 络 ”(GAN) 的 两 方 都 在 不 断 改 
进 ， 直 到 系统 的 生成 部 分 非常 擅长 创建 逼真 的 数据 。 这 是 一 场 猫 捉 老鼠 
的 游戏 ， 一 场 敌 对 的 军备 竞赛 ， 双 方 都 竭尽 全 力 与 对 方 竞争 。 


























这 似乎 不 能 让 你 一 目 了 然 地 看 出 “生成 对 抗 网 络 ” 的 作用 : 我 们 为 什 
么 要 关注 两 个 相互 竞争 的 网 络 ? 当 我 们 想 要 为 菜 种 目的 创建 数据 时 ， 这 
些 网 络 非 党 有用。 例如， 我 们 可 能 想 要 一 个 能 生成 马 、 乌 或 人 的 逼真 图 
片 的 网 络 。 此 时 我 们 歌 可 以 用 马 和 斑马 的 图 片 来 训练 其 中 一 个 网 络 ， 例 
如 创建 一 个 “生成 对 抗 网 络 ?， 把 马 的 照片 转换 成 以 假 乱 真 的 斑马 图 睫 ; 
再 如 ， 我 们 还 可 以 训练 一 个 网 络 ， 根 据 楚 高 画作 的 风格 生成 遏 真 的 场 
景 。 三 正如 我 在 上 文 提 到 的 ， 这 些 网 络 还 可 以 用 于 生成 非 图 像 数 据 ， 比 
如 声音 或 远 真 的 英语 句子 。 


在 这 一 点 上 ， 让 我 们 回 到 构建 理解 人 类 语言 的 程序 时 所 遇 到 的 困 
难 。 到 目前 为 止 ， 我 们 所 讨论 的 程序 仍然 远 远 不 能 理解 人 类 语言 。 它 们 
可 以 生成 简短 的 句子 来 描述 图 像 ， 但 是 当 你 仔细 观察 这 些 算 法 时 ， 你 很 
快 就 会 发 现 它 们 的 局 限 。 





在 本 书 的 第 一 章 中 ， 我 提 到 了 IBM 的 “天 森 ?”， 它 在 美国 游戏 节目 
《危险 边缘 》 中 击败 了 冠军 肯 : 詹 宁 斯 和 布 拉 德 : 鲁 特 。 那 么 你 可 能 会 
想 ， 如 果 我 们 还 远 远 没有 设计 出 能 理解 人 类 上 自然 语言 的 机 器 ， 那 么 “ 沃 
和 森 ” 怎 么 能 在 一 个 似乎 需要 参赛 者 理解 英语 语言 细微 差别 的 游戏 中 表现 
得 如 此 出 色 ? 当然 ， 在 这 个 项 目 中 有 一 些 巧 妙 的 设计 ， 但 是 我 们 将 在 第 
12 半 中 看 到 ,“ 沃 森 ” 并 不 是 为 了 理解 问题 而 设计 的 ， 而 是 为 了 回答 问题 
而 设计 的 。 








1. Ian Goodfellow et al.,“Generative Adversarial Nets,"Advances in Neural Information 
Processing Systems(2014):2672—2680. 


2. Jun-Yan Zhu et al.,“Unpaired Image-to-Image Translation Using CycleConsistent 
Adversarial Networks,” arXiv preprint arXiv:1703.10593,2017. 
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总 是 冷冰冰 地 、 不 动 
声色 地 玩 游戏 ， 一 旦 找到 有 把 握 的 答案 ， 它 的 抢答 器 训 


就 会 在 第 一 时 间 喻 


肯 詹 宁 其 
《危险 边缘 》 节 目 人 类 冠军 
1. Ken Jennings,“My Puny Human Brain,"Slate Magazine,February16,2011,accessed 


June16,2017,http://www.slate.com/articles/arts/culturebox/2011/02/my. puny. human brain.html. 


是 宣传 喷头 ， 还 是 人 工 智 能 研究 的 福 首 ? 


2006 年 ， 窄 巴 斯 带 安 : 特 龙 在 一 次 人 工 知 能 会 议 上 介绍 了 他 和 他 的 
同事 为 第 二 次 DARPA 无 人 车 挑 成 赛 开 发 的 目 动 要 驶 汽车 斯 坦 利 。 观 众 
MTA Tk FS EEA TTT oD BOIS FEE Fs ST HAL James 
Fan) 也 在 观众 之 列 ， 他 那 时 正在 研究 问答 系统 ， 这 是 计算 机 科学 的 一 
个 冷门 领域 ， 致 力 于 开发 能 够 回答 书面 问题 的 计算 机 程序 。 往 姆 斯 看 着 
塞 巴 斯 带 安 的 演讲 ， 陷 入 了 沉思 。 





后 来 ， 他 对 一 群 同 事 说 道 :“ 如 果 出 现 一 个 由 亚 历 元 斯 . 特 里 贝 元 
(Alex Trebek) 主持 的 问答 挑战 赛 ， 那 呈 不 是 太 棒 了 ? ”三 特 里 贝克 是 
美国 流行 游戏 节目 《危险 边缘 》 的 主持 人 ， 在 这 档 节 目 中 ， 参 赛 者 必须 
具备 百科 全 书 式 的 琐 傅 知识， 从 古代 史 到 生物 学 ， 再 到 电影 ， 无 所 不 
包 。 在 节目 中 ， 特 里 贝克 会 根据 答案 问 参赛 者 提供 线索 ， 参 赛 者 必须 根 


据 这 些 线索 推断 出 答案 ， 同 时 以 问题 的 形式 表述 出 来 。 二 








詹姆斯 的 同事 对 他 的 想法 一 笑 置 之 。 特 里 贝克 是 个 大 名 人 ， 政 府 的 
薪酬 计划 和 研究 拨款 根本 不 足以 支付 他 的 出 场 费 。 他 们 认为 ， 这 对 问答 
系统 领域 可 能 是 很 好 的 宣传 ， 但 这 是 在 挥霍 纳税 人 的 钱 。 














1. James Fan,personal correspondence with author,June9,2017. 
2. 参赛 者 如 果 无 法 完成 ， 就 会 输 掉 比赛 。https:Wwww.youtube.com/watch? 





v=Y0p03rRM6Pw. 


IBMI']*7 AR” 


将 近 5 年 之 后 ， 在 2011 年 1 月 的 两 个 寒冷 的 日 子 里 ，《 和 危险 边缘 》 历 
史上 最 成 功 的 两 位 人 类 选手 肯 : 詹 宁 斯 和 布 拉 德 : 鲁 特 在 节目 中 与 “ 沃 
森 ” 对 决 。“ 沃 森 ” 是 IBM 的 一 组 研究 人 员 开 发 的 计算 机 程序 。" 三 这 场 比 
赛 是 在 IBM 的 一 座 研究 大 楼 里 举行 的 ，“ 沃 森 ” 在 隔壁 数据 中 心 的 计算 机 
机 架 上 运行 ， 被 完全 切断 了 互联 网 。 在 寒冷 的 数据 中 心里 ， 又 鸣 的 风扇 
呼啸 着 吹 过 数 千 个 CPU 〈 中 央 处 理 器 ) . 00 


临时 演播 室 比 数据 中 心 和 室外 寨 冷 的 冬日 要 温暖 得 多 。IBM 邀 请 了 
亚 历 元 斯 : 特 里 贝 殉 来 主持 这 场 比赛 ; 参赛 者 在 题 板 上 选 定 主题 类 别 
后 ， 特 里 贝克 会 为 他 们 提供 线索 。 参 赛 者 想 出 答案 后 会 抢答 。 当 “ 沃 
牺 ” 知 道 答 案 时 ， 它 也 会 通过 电子 机 械 系 统 抢答 ， 它 的 电磁 闪 拇 指 会 第 
一 时 间 按 下 抢答 器 。\S/ 








“这 里 不 需要 赁 票 入 场 ， 它 是 黑 调 的 边界 ， 任 何 物质 都 不 能 从 那里 
逃脱 。” 特 里 贝克 说 道 。 

“天 和 森 ” 立 即 准确 无 误 地 给 出 了 答案 ， 只 见 它 的 屏 医 内 烁 淹 ， 一 个 柔 
和 的 机 械 声音 (一 位 记者 将 其 形容 为 “流畅 、 温 和 的 男性 语调 ”) 响起 三 
:“ 事 件 视 界 ` 寺 是 什么 ? ” 


比赛 远 未 结束 ， 往 宁 斯 和 和 鲁 特 就 意识 到 他 们 军 无 机 会 了 。 这 场 比赛 
对 他 们 而 言 堪 称 耻辱 。 当 为 期 两 天 的 挑 成 赛 结 束 时 ， 往 宁 斯 局 得 了 
24000 美 元 ， 鲁 特 慑 得 了 21600 美 元 ， 而 “ 添 森 ?最 终 属 得 了 77147 美 元 ， 
它 遥 遥 领 先 于 两 位 人 类 对 手 。 三 俯 宁 斯 在 回答 比赛 的 最 后 一 个 问题 时 ， 
在 下 面 写 了 一 份 认 输 声 明 : “我 ， 作 为 一 个 人 ， 欢 迎 我 们 新 的 机 器 人 震 
E. 
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解 为 什么 “ 沃 森 ” 会 取得 如 此 重大 的 突破 ， 让 我 们 来 看 看 “ 沃 森 ”需要 回答 
的 几 条 线索 。 下 面 是 《和 危险 边缘 》 中 关于 2008 年 奥运 会 的 一 个 例子 : 





米 洛 拉 德 。 查 维 奇 (MiloradéCavié) 差点 儿 破 坏 了 这 个 人 完美 的 
2008 年 奥运 会 ， 仅 以 百 分 之 一 秒 的 劣势 输 给 了 他 。 





PHEN RRR: 


被 通缉 的 罪犯 ; 最 近 一 次 在 巴 拉 多 塔 出 现 ; 这 是 一 只 巨 眼 ， 伙 计 
们 ， 你 们 会 找到 它 的 。 








下 面 还 有 一 条 线索 ， 属 于 “主要 蔬菜 ”类 别 : 
凉拌 菜 丝 。 


化 点 时 间 考 碟 一 下 计算 机 会 如 何 给 出 这 些 线索 对 应 的 问题 : 它 必 须 
知道 哪些 信息 ， 如 何 存储 这 些 信 息 ， 以 及 如 何 处 理 问题 来 查找 这 些 信 
恩 。 而 且 列 筷 了 ，IBM 的 研究 人 员 不 能 仅仅 编程 “ 沃 森 ” 去 阅读 问题 ， 理 
解 问题 ， 然 后 根据 它 阅 读 的 内 容 想 到 答案 。 它 的 程序 员 需 要 为 “ 沃 森 ” 提 
供 明确 的 操作 序列 ， 让 它 可 以 按照 这 些 操作 序列 来 回答 每 条 线索 。 











IBM 的 “ 沃 森 ” 无 法 像 人 类 一 样 理解 每 个 日 词 的 信义， 更 不 用 说 一 组 
单词 了 。 尽 管 如 此 ， 它 还 是 成 功 地 击败 了 两 位 人 类 冠军 。 在 下 文中 ， 我 
们 将 更 深入 地 研究 “天 和 森 ? 征 如 何 做 到 这 一 点 的 。 现 在 ， 我 们 将 从 谜 题 的 
第 一 部 分 开始 :“ 沃 森 ” 如 何 理 解 线 索 到 底 在 问 什么 。 


浩如烟海 的 知识 





从 表面 上 看 ， 有 些 《 危 险 边缘 》 的 问题 对 计算 机 而 言 可 能 很 容易 回 
答 : 《危险 边缘 》 是 一 个 智力 竞赛 节目 ， 而 智力 竞赛 节目 是 关于 知识 
的 。* 沃 森 " 有 4TB 〈 太 字 节 ) 硬盘 来 存储 知识 数据 库 。 = 这 应 该 能 让 我 
们 找到 构建 < 沃 森 "的 大 部 分 方法 ， 对 吧 ? 











例如 ， 请 看 下 面 这 条 《和 危险 边缘 》 的 线索 ， 该 线索 出 现在 “作者 古 
WE" HSS RT. NE 


BLA “BREME” A FRZ” o 

下 面 是 另 一 个 例子 ， 在 “作者 的 中 间 名 ?类 别 下 。 

爱 伦 ， 从 1849 年 10 月 7 日 开始 “ 永 不 复 还 ”。 

想 要 回答 这 些 问题 ,，“ 沃 森 ” 需 要 知道 享 特 :$. 汤 普 森 (Hunter 
S.Thompson) 写 出 了 《 蛋 恨 拉 斯 维 加 斯 》， 埃 德 加 : 爱 伦 : 坡 (Edgar 


Allan Poe) 逝世 于 1849 年 10 月 7 日 ， 或 是 至 少 知道 这 位 作家 与 短语 “水 不 
复 还 ?或 中 间 名 “ 爱 伦 ”有 有关。 Ve! 








诸如 此 类 的 知识 可 以 被 存储 在 数据 库 中 ， 而 “ 添 森 ?在 任何 时 候 都 会 
存储 这 样 的 知识 。 这 些 知 识 被 称 为 关系。 关系 是 人 、 地 方 和 事物 之 间 的 
联系 。 其 中 一 种 关系 是 作者 和 作品 的 关系 ， 它 可 以 给 出 上 述 第 一 条 线索 
KHER: 





12. 1 


查尔斯 .狄更斯 作品 《圣诞 颂歌 》 


URP. S. 汤普森 作品 (HAR fi E 
J. K. 罗 琳 作品 CEA - 波 特 与 魔法 石 》 


对 上 文中 的 第 二 条 线索 有 帮助 的 另外 一 种 关系 ， 即 人 与 其 逝世 时 间 
HRR: 


12.2 
埃 德 加 : XE X 逝世 时 间 1849 年 10 月 7 日 
亚伯拉罕 林肯 逝世 时 间 1865 年 4 月 15 H 
成 吉 思 汗 逝世 时 间 1227 年 8 月 18 日 


可 以 想象 ， 可 能 的 关系 是 无 穷 无 尽 的 ，“ 沃 森 ” 和 存储 了 数 百 万 种 关 
系 ， 用 于 记录 日 期 、 电 影 、 书 籍 、 人 物 、 地 点 等 。 


但 是 ， 仪 赁 数 以 百 万 计 的 关系 ,“ 沃 森 ” 仍 然 无 法 回答 《人 危险 边缘 》 
的 问题 。 以 我 上 文 提 到 的 “天 森 ? 参 赛 时 遇 到 的 线索 为 例 : 


被 通缉 的 罪犯 ; 最 近 一 次 在 巴 拉 多 塔 出 现 ; 这 是 一 只 巨 眼 ， 伙 计 
们 ， 你 们 会 找到 它 的 。 


虽然 “ 添 森 ? 给 出 了 正确 的 答案 “ 索 伦 是 谁 ? ”， 但 “ 沃 森 ”不 太 可 能 
有 “ 巨 眼 ” 的 关系 ， 更 不 用 说 “ 谁 长 着 巨 眼 ”的 关系 。 三 除了 索 伦 是 《指环 
王 》 中 的 一 个 角色 ，《 指 环 王 》 的 作者 是 托 尔 金 CLR.R.Tolkien) 之 
外 ,“ 添 森 ?” 的 结构 化 数据 库 中 不 太 可 能 有 任何 关于 索 伦 的 东西 。 就 像 自 
动 当 驶 汽车 无 法 预见 一 位 坐 在 电动 轮椅 上 的 妇女 在 马路 中 间 追 赶 一 只 鸭 








子 这 样 的 罕见 情况 我 们 知道 这 是 自动 驾驶 汽车 遇 到 的 真实 情况 ) 一 
样 ，“ 沃 森 ” 背 后 的 研究 人 员 也 不 可 能 预见 到 所 有 可 能 出 现在 线索 中 的 关 
系 。 


“ 沃 森 ” 面 临 的 男 一 个 挑战 是 ，《 人 危险 边缘 》 的 线索 表述 方式 多 种 多 
样 。 以 上 文中 埃 德 加 : 爱 伦 : 坡 的 线索 为 例 ， 他 在 1849 年 “ 永 不 复 
还 ”了 。“ 沃 森 ” 需 要 一 些 方 法 来 认识 到 一 个 人 “ 永 不 复 还 ”是 “死亡 ”的 同 义 
词 。“ 沃 森 * 使 用 了 字典 和 主题 词 表 ,但 典型 的 主题 词 表 不 会 将 “ 永 不 复 
AAEE NR as 同义词 只 有 在 这 个 语 境 中 才 有 意义 ， 因 为 “ 永 
TRUE ER 德 加 : 爱 伦 : 坡 一 首 诗 中 的 著名 诗句 。 虽 然 天 系 使 “ 沃 森 ”能 够 
简单 地 在 数据 库 中 查找 > 答案 但 只 有 1/4 的 问题 是 从 这 些 关 系 开始 的 。 


更 糟糕 的 是 ，“ 沃 森 "能 简单 地 “查找 ”到 答案 的 线索 只 有 2%。 二 




















那么 ， n PT 它 通 过 系统 地 分 析 线 
索 ， 仔 细 梳 理 关 键 信 息 来 做 到 这 一 点 。 
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BILE UK AR” MRIS TAS EUAN A, ERA 贝克 (Stephen — 
Baker) 出 版 了 一 本 畅销 书 《 人 危险 边缘 总 决赛 》 (FinalJeopardy) . 
本 书 最 初出 版 的 是 电子 版 ， 书 的 最 后 et LA RE 
布 ， 读 者 需要 等 待 才能 阅读 ， 而 且 这 一 章 是 在 节目 播 出 后 以 电子 版 发 布 
的 《并 包含 在 随后 的 印刷 版 中 ) 。 除 此 之 外 ， 书 中 还 描述 了 IBM 的 团队 
如 何 决 定 开发 一 个 玩 《 和 危险 边缘 》 的 程序 ， 这 个 故事 我 在 下 文 会 娓 娓 道 
A. v 

















在 21 世 纪 初 ，IBM 一 直 在 寻找 一 项 挑战 赛 ， 公 开展 示 公 司 的 技术 实 
力 。 对 IBM 而 言 ， 找 到 这 样 的 挑战 很 重要 ， 因 为 IBM 拥 有 利润 丰厚 的 咨 
询 业 务 ， 而 这 项 业务 依赖 于 客户 对 公司 在 大 数据 和 大 规模 计算 等 领域 处 
于 领先 地 位 的 信心 。1997 年 ，IBM 人 和 凭借 “深蓝 ”击败 了 国际 象棋 冠军 加 里 : 
卡 斯 帕 罗 夫 ， 这 便 是 一 个 成 功 案 例 。 因 此 ， 每 个 人 心中 都 有 再 挑战 一 次 
的 想法 。" 福 





我 们 很 难 准确 地 追溯 挑战 《和 危险 边缘 》 最 初 的 想法 是 始 于 何 处 ， 
IBM 员 工 的 描述 各 不 相同 。 有 一 种 说 法 是 ，2004 年 的 一 个 秋 日 ，IBM 的 
一 位 高 级 经 理 在 一 家 牛排 餐厅 里 产生 了 这 个 想法 。 他 注意 到 其 他 顾客 全 
都 殷 下 了 他 们 未 动 过 的 饭菜 ， 来 到 餐厅 的 另 一 个 区 域 。 他 们 聚集 在 电视 
机 周围 ， 足 足 围 了 三 层 ， 观看 詹 宁 斯 著名 的 连 胜 表演 - 连续 赢 了 50 多 场 
比赛 后 ， 詹 宁 斯 还 会 继续 赢 下 去 吗 ? IBM 的 经 理想 知道 ， 如 果 公 众 对 这 
个 比赛 如 此 着 迷 ， 那 么 他 们 对 人 类 和 计算 机 之 间 的 比赛 会 同样 感 兴趣 


Hu ? Vx) 





然而 ，IBM 挑 战 《 和 危险 边缘 》 的 想法 实际 上 已 经 开始 了 《至 少 公 司 
的 男 一 名 员工 认为 他 有 这 个 想法 ， 而 我 们 在 本 章 开 始 时 看 到 的 詹姆斯 : 


法 恩 也 有 这 个 想法 ) ， 一 旦 这 些 想 法 合流 ， 就 会 遇 到 很 多 内 部 阻力 。 有 
些 人 认为 挑战 《危险 边缘 》 只 是 个 宣传 嗪 头 ， 可 能 会 浪费 金钱 和 研究 人 
UNS TA], EAERI E, REMTRE IER IIIS BURT EERO HTL 


力 ， 但 IBM 的 3000 人 研究 部 门 的 负责 人 还 是 同 他 的 一 些 研究 人 员 推 荐 了 
这 个 项 目 ， 其 中 一 wu es sa 


Bee Ay AS TY Be a Nh A adel, AA tte EE ot A A 
TARAS EB ST BCE ZA 0 ATES Ta) S Ste TH RE dt I] n] 
bx ERU DN iain dai ad 
E, HEAR A wwe NE CILE) . READ. EEE 
问题 交 给 了 他 的 团队 。 团 队 中 只 4 m e 这 个 
人 便 是 詹姆斯 -法 恩 ， 他 刚刚 获 岂 得 博士 学 位 ， 加 入 了 这 个 团队 。' 三 但 是 
团队 得 出 的 结论 是 ， 这 个 领域 还 没有 准备 好 ， 项 目 将 会 非常 艰难 。 费 午 
奇 也 告诉 研究 负责 人 ， 最 好 不 要 继续 这 个 项 目 。 三 











不 久 ， 研 究 负 责 人 又 回来 问 起 《和 危险 边缘 》 的 项 目 ， 费 鲁 奇 和 他 的 
团队 又 一 次 回 到 会 议 室 进行 头脑 风暴 。 在 讨论 这 个 项 目 时 ， 他 们 的 结论 
大 致 相同 : 能 够 回答 《危险 边缘 》 问 题 的 系统 需要 比 他 们 目前 的 系统 快 
得 多 ， 它 需要 回答 更 广泛 的 问题 ， 而 且 ， 最 困难 的 是 ， 它 需要 更 准确 地 
回答 这 些 问 题 。 有 太 多 开放 的 研究 问题 需要 和 解决， 项目 似乎 毫 无 希望 。 
但 最 终 ， 在 成 功 的 可 能 性 和 一 些 天 于 如 何 继续 下 去 的 预感 的 辟 舞 下 ， 他 
们 心软 了 ， 于 是 , RR WEE T- 
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DeepQA 


费 重 奇 的 团队 刚 开始 研究 “ 沃 森 * 的 时 候 ， 已 经 有 了 一 个 在 当时 的 标 
准 看 来 很 不 错 的 问答 系统 。IBM 已 经 为 此 投入 了 大 量 资 源 ， 一 个 4 人 团 
队 花 费 了 6 年 时 间 开 发 了 这 个 系统 。 但 是 他 们 现 有 的 系统 并 不 适用 于 
《危险 边缘 》， 因 此 费 鲁 奇 的 团队 花 了 大 约 一 个 月 时 间 来 改造 它 。 





费 鲁 奇 的 团队 还 需要 一 种 方法 来 评估 他 们 的 系统 。 笠 运 的 是 ， 他 们 
在 互联 网 上 发 现 了 《危险 边缘 》 的 线索 和 答案 的 宝库 。《 人 危险 边缘 》 的 
热心 “粉丝 ?创建 了 一 个 网 站 ， 其 中 包含 了 《危险 边缘 》 节 目 中 所 有 的 问 


题 和 答案 ， 他 们 还 用 详细 的 信息 对 问题 做 了 注解 。 二 


IBM 团 队 利用 这 个 网 站 搜集 了 《和 危险 边缘 》 以 往 获 胜 者 的 表现 统计 
数据 : 《危险 边缘 》 的 获胜 者 抢答 的 概率 是 多 少 ? 他 们 抢答 后 给 出 正确 
答案 的 概率 是 多 少 ? 费 鲁 奇 的 团队 创建 了 这 两 组 数据 的 散 点 图 ， 这 堆 数 
据点 说 明了 《危险 边缘 》 以 往 获 胜 者 回答 问题 的 准确 率 高 低 和 得 分 多 
少 。 他 们 称 这 个 图 为 “优胜 者 云 "， 并 用 它 作 为 衡量 “ 沃 森 ” 水 人 准 的 标杆 。 
三 如 果 他 们 能 把 “ 沃 森 ? 移 到 点 云 中 ， 那 么 “< 添 条 ?就 能 与 人 类 优胜 者 相 
美 。 如 末 他 们 能 把 “ 沃 森 ” 移 过 点 云 ， 那 么 “ 沃 森 ” 就 能 战胜 这 些 人 类 优胜 
者 。 





在 团队 花 了 一 个 月 的 时 间 将 以 前 的 系统 改造 为 挑战 《危险 边缘 》 的 
系统 之 后 ， 他 们 采用 一 些 指标 对 其 进行 了 评 佑 。 但 他 们 改造 后 的 系统 表 
现 糟 米 ;， 如 果 $ 天 森 * 回 答 了 它 最 有 信心 的 62% 的 问题 一 一 这 与 肯 : 詹 宁 斯 
回答 问题 的 平均 百分比 相同 ， 那 么 它 只 能 答对 13% 的 问题 。 而 要 与 詹 宁 
斯 竞争 ，“ 沃 森 ” 需 要 答对 92% 以 上 的 问题 。' 三 他 们 很 清楚 自己 需要 使 用 
大 不 相同 的 方法 。 














t1 1943 ZR EIS] AUS bs Eze BS AT A PRSE: 团队 需要 认识 
到 ， 他 们 目前 的 系统 和 传统 的 方法 已 经 失败 了 。 通 过 失败 ， 他 们 可 以 从 
头 开 始 ， 用 全 新 的 方式 看 竺 事物。 三 





于 是 ， 费 鲁 奇 和 他 的 团队 进行 了 实验 ， 采 用 了 学 术 文 献 中 最 先进 的 
方法 。 经 过 几 个 月 的 实验 ， 团 队 终 于 找到 了 一 种 貌似 可 行 的 架构， 他 们 
称 之 为 DeepQA (深度 问答 ) 。 三 DeepQA 背 后 的 方法 很 简单 。 像 许多 
其 他 问答 系统 一 样 ，DeepQA 只 需 执 行 几 个 具体 步骤 即 可 得 出 答案 ， 如 
图 12.1 所 示 : 分 析 问 题 ， 用 搜索 引擎 找到 候选 答案 ， 研 究 这 些 答 案 ， 并 
根据 为 它们 找到 的 证 据 对 这 些 答案 进行 评分 。 在 本 章 的 余下 部 分 中 ， 我 
们 将 重点 关注 此 流程 的 第 一 阶段 :“ 沃 森 ” 的 问题 分 析 阶 段 。 











分 析 问题 对 答案 进行 
评分 和 排名 





图 12.1 非常 复杂 的 DeepQA 流 程 的 基本 概述 
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Ferrucci et al., Building Watson.” 


问题 分 析 


“ 沃 森 ” 的 问题 分 析 阶 段 的 目标 是 将 一 个 问题 分 解 成 多 个 信息 片段 ， 
这 些 信息 片段 对 于 在 后 续 的 流程 中 查找 和 评估 答案 是 非常 有 用 的 。 
与 “ 添 森 ?的 大 多 数组 成 部 分 一 样 ， 问 题 分 析 阶 段 在 很 大 程度 上 依赖 于 目 
然 语 言 处 理 NLP)〉。 自 然 语言 处 理 让 “ 沃 森 ” 能 够 用 构成 线索 的 单词 做 
一 些 有 意义 的 事情 :“ 沃 森 * 用 它们 找到 线索 中 单词 的 词性 ， 在 线索 中 搜 
索 人 名 和 地 名 ， 并 创建 线索 的 句 型 图 。 = 











在 问题 分 析 阶 段 ，“ 活 森 ” 最 重要 的 任务 是 在 线索 中 找到 可 以 概括 出 
线索 具体 要 求 的 词组 。 以 下 面 这 条 线索 为 例 : 





B 型 肝脏 炎症 是 通过 某 些 个 人 接触 传播 的 。 





概括 出 这 条 线索 具体 要 求 的 词组 是 “肝脏 炎症 ”>。“ 沃 森 ” 的 研究 人 员 
称 这 个 词组 为 重点 。 重 点 是 线索 的 一 部 分 ， 如 果 用 答案 取代 它 ， 线 索 束 





会 变 成 事实 陈述 。 三 如 果 我 们 用 答案 “肝炎 ”取代 线索 的 重点 ， 它 就 会 变 
成 : 


B 型 肝炎 是 通过 某 些 个 人 接触 传播 的 。 
现在 它 变 成 了 一 条 事实 陈述 。 下 面 是 为 一 个 例子 : 


2005 年 ， 这 对 无 敌 搭档 调查 了 “ 免 怪 的 诅咒 ”。 








在 这 条 线索 中 ， 重 点 是 “这 对 无 政 搭档 >。 用 答案 代 丛 重点 ， 我 们 会 
得 到 : 


2005 年 ， 华 菜 土 和 格 罗 米 特 三 调查 了 “ 免 怪 的 诅咒 ”。 





这 同样 是 一 条 事实 陈述 。 通 过 找到 重点 ，“ 沃 森 ” 可 以 利用 这 些 信息 
生成 可 能 的 答案 并 对 答案 进行 评分 。 现 在 我 们 将 其 应 用 到 上 文中 那 条 关 
于 2008 年 奥运 会 的 线索 ， 它 的 重点 是 “这 个 人 >”: 








米 洛 拉 德 。 查 维 奇 差点 儿 破 坏 了 这 个 人 完美 的 2008 年 奥运 会 ， 仅 以 
百 分 之 一 秒 的 劣势 输 给 了 他 。 


”““ 沃 森 ”从 问题 中 提取 的 为 一 类 信息 是 描述 答案 类 型 的 单词 或 词组 。 
三 线索 要 求 的 是 一 位 总 统 ? 一 座 城 市 ? 像 肝 炎 那 样 的 炎症 ? BIE RAE SR 
那样 的 食材 ?同样 ,，“ 沃 森 * 利 用 这 些 信息 提出 候选 答案 ， 并 在 后 续 的 流 
程 中 对 其 进行 评分 。 我 将 在 下 一 章 详细 描述 “ 沃 森 * 如 何 使 用 这 些 信 息 ，; 
现在 ， 你 只 需要 知道 “ 沃 森 ” 在 这 个 阶段 存储 了 这 些 信息 ， 这 样 它 就 可 以 
在 后 续 阶 段 中 选择 并 缩小 可 能 的 答案 范围 。 例 如 ， 如 果 问 题 问 的 是 一 种 
疾病 ， 那 么 “ 沃 森 ” 就 可 以 给 那些 实际 是 疾病 的 候选 答案 更 高 的 权重 ， 而 
给 诸如 疾病 症状 这 样 的 候选 答案 较 低 的 权重 ， 从 而 在 后 续 阶 段 缩小 候选 
答案 范围 。 答 案 类 型 通常 是 重点 的 一 部 分 ， 因 此 如 果 “ 沃 森 ? 能 够 找到 重 
点 ， 那 么 它 很 有 可 能 找到 答案 类 型 。 在 我 们 那 条 关于 2008 年 奥运 会 的 线 
索 中 ， 答 案 类 型 是 人 。 因 此 ,“ 沃 森 ?” 会 在 后 续 的 流程 中 使 用 这 一 信息 ， 
把 候选 答案 的 范围 缩小 到 人 。 











有 时 ,，“ 沃 森 * 的 线索 中 只 有 几 个 名 词 或 动词 可 以 用 于 搜索 。 我 们 在 
上 文 看 到 的 一 条 线索 中 只 有 一 个 词 : 凑 拌 菜 丝 。 三 当 “ 天 森 ? 在 这 种 情况 
下 找 不 到 答案 类 型 时 ， 它 会 在 线索 的 类 别 中 搜索 答案 类 型 。(《 人 危险 边 
缘 》 中 的 每 个 问题 都 被 分 配 到 一 个 类 别 中 ， 选 手 看 到 问题 时 都 可 以 看 到 
这 个 类 别 。) 线索 “凉拌 沫 丝 ” 的 类 别 是 “常见 蔬菜 ”， 所 以 在 这 种 情况 
下 ,“ 环 牺 ” 可 以 将 答案 类 别 设 置 为 蔬菜 ， 这 会 帮助 它 找 到 正确 答案 : E 


`y d | 
De o N 











“ 沃 森 ” 还 在 线索 中 寻找 专 有 名 词 、 日 期 和 关系 。 通 过 寻找 专 有 名 
词 ，“ 沃 森 ” 可 以 在 随后 寻找 候选 答 采 时 更 加 专注 。 在 天 于 2008 年 奥运 会 





的 线索 中 ， 它 会 找到 * 米 洛 拉 德 : 查 维 奇 > 这 个 名 字 和 “2008 年 奥运 会 > 这 个 
词组 。 它 还 会 意识 到 2008 年 是 线索 中 的 一 个 日 期 。 


Tre, TRA ARATE, MP ELH HEA AA fa. HYPE 
中 一 些 信息 ，“ 活 森 ” 使 用 了 简单 的 模式 匹配 。 例 如 ， 通 过 让 沃 森 搜索 以 
1 或 2 开头 的 4 位 数 序 列 ， 我 们 可 以 很 容易 地 让 它 搜索 日 期 。 但 “ 沃 森 ” 要 
从 线索 中 提取 其 他 信息 ， 比 如 线索 的 重点 和 答案 类 型 ， 就 需要 一 套 更 复 
Ts 


1. Ferrucci et al.,“Building Watson.” 

2. Adam Lally et al.,“Question Analysis:How Watson Reads aClue,"IBMJournal of Research 
and Development56,no.3.4(2012). 

3. 华 莱 士 和 格 罗 米 特 是 卡通 片 《 免 怪 的 诅咒 》 中 的 角色 ， 被 称 为 无 敌 搭档 。 一 -一 译 者 
注 

4. “ 沃 森 ” 的 研究 人 员 称 之 为 “词汇 回答 类 型 ”(]exical answer type, LAT) 。 

5. 这 条 线索 可 以 在 J-Archive 网 站 上 找到 ， 请 访问 2017 年 6 月 16 日 的 节目 页 面 : 
http://www.j-archive.com/showgame.php?game_id=3652. 









































6. Lally et al.,“Question Analysis.” 


“ 沃 森 ” 如 何 解 读 句 子 ? 





现代 上 自动 机 与 世界 交互 的 最 重要 方式 之 一 是 感知 。 我 们 已 经 看 到 了 
自动 驾驶 汽车 如 何 感 知 周围 的 环境 ， 它 使 用 激光 扫描 仪 、 摄 像 机 和 加 速 
度 计 来 创建 环境 模型 。“ 沃 森 * 没 有 激光 扫 搬 仪 或 加 速度 计 ， 也 没有 用 来 
阅读 屏 医 的 摄像 机 和 用 来 昕 亚 历 元 斯 - 特 里 贝克 讲话 的 传声器 。 线 索 被 
以 电子 文本 文件 的 形式 传递 给 “ 沃 森 *"。 当 “ 沃 森 ” 但 看 文本 文件 时 ， 它 看 
到 的 不 过 是 一 串 有 序 的 字母 序列 ， 因 此 它 使 用 了 上 自然 语言 处 理 领 域 的 技 
巧 来 理解 它们 。 








“ 沃 森 ” 理 解 这 些 字 符 的 第 一 种 方式 是 将 线索 解释 为 蛙 词 序列 ， 而 不 
是 字母 序列 。 一 旦 “ 沃 森 ” 将 一 条 线索 解释 为 一 系列 单词 ， 它 束 可 以 使 用 
一 些 更 有 趣 的 技巧 来 处 理 线索 。 这 些 技巧 中 最 重要 的 是 用 句 型 图 绘制 出 
线索 的 结构 ， 就 像 你 在 小 学 时 做 的 那样 。 计 算 机 在 一 个 叫 “ 句 法 分 析 ” 的 
过 程 中 创建 句 型 图 ， 生 成 的 句 型 图 通常 被 称 为 解析 树 。 你 可 以 在 图 12.2 
中 看 到 有 关 2008 年 奥运 会 那 条 线索 的 解析 树 。 在 这 条 线索 中 ， 主 语 是 专 
有 和 名词“ 米 洛 拉 德 碍 维 奇 ”， 动 词 是 “破坏 ”， 句 子 的 其 余部 分 修饰 动词 短 
语 。《〈 这 不 是 “ 沃 森 ”解析 句子 的 确切 方式 ， 但 基本 思路 是 这 样 的 。) 一 
旦 “ 沃 森 * 有 了 人 句子 的 句 型 图 ， 它 就 可 以 用 句 型 图 对 问题 进行 更 有 趣 的 分 
析 ， 我 们 很 快 束 会 谈 到 这 个 问题 。 但 首先 ， 让 我 们 人 简要 地 看 一 下 像 “ 沃 
和 森 ” 这 样 的 程序 如 何 创 建 解析 树 。 
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“ 米 洛 拉 德 。 查 维 奇 差点 儿 破 坏 了 这 个 人 完美 的 2008 年 奥运 会 ， 仅 以 百 分 之 
”这 和 旬 话 的 解析 树 。 这 个 解析 树 属于 传统 的 “ 身 法 分 析 ”， 
“ 沃 森 ” 并 不 是 完全 像 这 样 分 析 句 子 ， 但 基本 思路 是 这 


样 的 


图 12. 2 
一 秒 的 劣势 输 给 了 他 。 
很 像 你 小 学 时 学 过 的 东西 。 


计算 机 可 以 使 用 搜索 算法 创建 解析 树 ， 这 很 像 Boss 在 城市 环境 中 规 


划 路 径 的 方式 。“ 沃 森 ” 的 解析 器 不 是 像 Boss 那 样 在 地 图 上 搜索 最 佳 路 
径 ， 而 是 从 符合 语法 规则 的 句子 里 众多 的 单词 中 寻找 最 好 的 方法 来 创建 
解析 树 。 现 代 解 析 器 使 用 关于 单词 和 词性 之 间 关 系 的 统计 信息 来 查找 最 
有 可 能 的 解析 树 。 

















你 可 能 还 记得 ， 在 你 上 学 的 时 候 ， 英 语句 子 可 以 分 解 成 主语 短语 和 
动词 短语 ， 而 且 每 一 种 短语 都 可 以 进一步 分 解 。 例 如 ， 动 词 短语 或 名 词 
短语 可 以 分 解 为 两 部 分 : 








动词 短语 = 副词 + 动词 短语 
名 词 短 语 = 形 容 词 + 名 词 


我 们 可 以 继续 应 用 这 样 的 规则 ， 直 到 一 个 句子 被 分 解 成 小 块 ， 每 个 
小 块 都 是 单一 的 词性 。 一 些 句子 分 析 器 就 是 利用 这 一 点 。 为 了 解析 一 个 
人 句子， 这 些 解析 器 使 用 这 些 规则 来 寻找 拆 分 句子 的 最 佳 方法 ， 和 直到 不 能 
把 句子 拆 分 成 更 多 的 小 块 为 止 。 


有 时 句子 会 产生 有 歧义 的 解析 树 。 以 下 是 传闻 中 出 现在 报纸 头条 中 
Mj rep. D 





Juvenile Court to Try Shooting Defendant. (翻译 为 : 少年 法 
庭审 讯 枪击 被 告 人 。/ 少 年 法 庭 党 试 射 杀 被 告 人 。) 


Hospitals Are Sued by7Foot Doctors. (翻译 为 : 医院 被 7 名 足 部 
医生 起 诉 。/ 医 院 被 7 英尺 高 的 医生 起 诉 。) 





你 可 能 认为 这 些 例子 是 捏造 出 来 的 。 这 只 是 极 少数 例外 ， 对 吗 ? SC 
际 上 ， 这 种 模棱两可 的 情况 随时 都 可 能 发 生 。 它 们 总 是 潜伏 在 我 们 语言 
的 表面 之 下 ， 但 我 们 大 部 分 时 间 都 没有 注意 到 它们 ， 因 为 我 们 的 头脑 很 
快 就 能 解决 它们 的 卜 义 。 看 看 你 能 否 在 我 们 在 本 章 前 面 看 到 的 一 条 线索 
PERRE: 








It’ s the Bform of this inflammation of the liver that’ s 
spread by some kinds of personal contact. (翻译 为 : B 型 肝脏 类 症 
是 通过 某 些 个 人 接触 传播 的 。/B 型 类 症 的 肝脏 是 通过 某 些 个 人 接触 传播 
的 。) 





在 这 条 线索 中 ， 上 收 义 之 处 在 于 ， 是 炎症 通过 茶 些 个 人 接触 传播 ， 还 
古 肝脏 通过 茶 些 个 人 接触 传播 。 虽然 对 我 们 人 类 而 言 很 明显 ， 肝 脏 不 能 
通过 个 人 接触 传播 ， 但 这 对 于 “ 沃 森 ” 的 句子 解析 器 来 说 并 不 明显 。 这 种 
解析 没有 任何 语法 错误 ， 即 便 它 在 语义 上 很 奇怪 。 





下 面 是 另 一 个 例子 ， 是 “ 沃 森 ?在 对 决 肯 : 和 俯 宁 斯 和 布 拉 德 : 鲁 特 时 遇 
到 的 。 


丹尼尔 。 凯 斯 1959 年 的 短篇 小 说 ， 小 说 讲述 了 查理 。 戈 登 和 一 只 比 
普通 老鼠 更 聪明 的 实验 室 老鼠 ， 获 得 了 雨 果 奖 。 





在 这 个 例子 中 ， 攻 义 之 处 在 于 ， 是 一 篇 写 碍 理 . 戈 登 和 一 只 比 普 通 
老鼠 聪明 的 实验 室 老鼠 的 短篇 小 说 获得 了 雨 果 炎 〈 正 确 的 分 机 ) ， 还 是 
碍 理 : 戈 登 的 短篇 小 说 和 一 只 比 普通 老鼠 隐 明 的 实验 室 老 鼠 都 获得 了 两 
果 奖 。〔 雨 果 奖 是 授予 科幻 小 说 和 奇幻 小 说 的 奖项 。) 第 二 种 解析 没有 
任何 语法 或 语义 上 的 错误 ， 但 十 如 果 你 知道 雨 果 交 ， 残 会 知道 到 雨 果 奖 
通常 不 会 倾 给 聪明 的 老鼠 。 顺 便 提 一 下 ，“ 沃 森 ” 正 确 地 给 出 了 这 条 线索 
的 答案 : 《 献 给 阿尔 吉 依 的 花束 》。 








计算 机 无 法 确定 上 述 语句 的 哪个 解析 树 是 正确 的 ， 除 非 有 更 多 相关 
情况 的 上 下 文 ; 正如 我 先前 提 到 的 ， 现 代 解 析 器 使 用 的 统计 数据 是 关于 
单词 、 词 性 以 及 它们 组 合成 句子 的 方式 的 。 通 常 ， 这 些 足 以 使 计算 机 找 
到 正确 的 解析 树 。 


尽管 沃 森 ” 可 以 创建 这 些 句 型 图 ， 但 它 仍 然 不 知道 句子 的 意思 。 
对 “ 沃 森 ” 而 言 ， 这 些 句 型 图 不 过 是 在 计算 机 内 存 中 流动 的 数据 结构 ， 其 
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图 。 句 型 图 仅仅 是 程序 员 用 来 解释 问题 的 有 用 工具 。 但 程序 员 如 何 能 在 
不 看 问题 的 情况 下 解释 问题 呢 ? 














还 记得 自动 驾驶 汽车 的 大 富 例 棋盘 吗 ? 大 富翁 棋盘 编码 了 人 们 在 面 
对 汽车 可 能 遇 到 的 情况 时 所 需 的 知识 ， 比 如 交通 卡 口 处 的 优先 规则 。 就 
像 Boss 的 创建 者 手工 制定 规则 让 和 它 在 研究 人 员 不 在 的 时 候 穿 越 拥挤 的 十 
字 路 口 一 样 ，“ 沃 森 ” 的 开发 者 也 手工 制定 了 规则 ， 这 样 ， 研 究 人 员 不 在 
的 时 候 ，“ 沃 森 ” 束 可 以 饥 哎 它 的 句 型 图 ， 从 线索 中 提取 有 意义 的 信息 。 


从 问题 分 析 阶 段 开 始 ,“ 添 条 ?使 用 这 些 规则 沿 着 DeepQA 流 程 检 过 
解析 树 。 解 析 树 的 用 处 之 一 是 找到 线索 的 重点 。 记 住 ， 重 点 是 线索 中 准 
确 抓 住 了 要 问 的 东西 的 词组 ， 比 如 这 个 人 或 这 种 炎症 。 为 了 找到 重 
扩 ，“ 闫 森 ” 使 用 了 一 些 简单 的 规则 ， 比 如 搜索 由 “这 个 ”或 “这 些 ” 描 述 的 
名 词 短语 。"=“ 沃 森 ” 还 在 它 的 解析 树 中 寻找 其 他 信息 ， 包 括 是 否 有 嵌入 
其 他 线索 中 的 线索 ， 是 否 有 “或 ”这 样 的 连词 连接 成 对 的 线索 。“ 沃 森 ” 还 
在 解析 树 中 搜索 与 线索 的 重点 有 关 的 关系 信息 。 


在 图 12.3 中 ， 你 可 以 看 到 “ 沃 森 * 如 何 分 析 那 条 关于 奥运 会 的 线 
索 。“ 汪 和 森 ” 使 用 许多 规则 系统 地 剖析 这 条 线索 ， 使 用 解析 树 作为 检查 线 
索 的 镜头 。 在 问题 分 析 阶 段 ,“ 添 森 ?” 仿 佛 一 个 患 有 强迫 症 的 组 织 者 ， 仔 
细 评 估 它 在 句子 中 发 现 的 内 容 ， 并 将 一 些 信息 放 入 精心 标记 的 方 框 中 。 
但 它 仍 然 没 能 更 接近 线索 要 问 的 东西 。“ 沃 森 ” 漫 无 目的 地 处 理 它 的 线 
索 ， 以 便 它 的 DeepQA 流 程 的 后 几 个 阶段 可 以 完成 它们 的 工作 。 

















当 “ 沃 森 ” 完 成 这 个 标记 过 程 时 ， 它 的 工作 还 远 未 结束 : 它 仍 然 面临 
着 为 线索 找到 正确 答案 的 艰巨 任务 。 为 此 ， 它 使 用 了 一 些 你 可 能 会 想到 
的 典型 数据 源 : 字典 、 地 理 知 识 和 电影 数据 库 ， 甚 至 维基 百科 。 但 是 ， 
正如 我 们 将 在 第 13 章 中 看 到 的 , “ 添 条 ?使 用 它们 的 方式 和 人 类 截然 不 
同 。 


类 别 中 早期 
问题 的 信息 


线索 : 解析 树 
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儿 破 坏 了 这 个 人 完美 的 
2008 年 奥运 会 ， 仅 以 百 分 
之 一 秒 的 劣势 输 给 了 他 。 
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图 12.3 “ 沃 森 ”在 问题 分 析 阶 段 从 线索 中 寻找 的 一 些 最 重要 的 信息 























1. 除了 新 闻 组 档案 之 外 ， 这 些 例 子 还 出 现在 卡 内 基 - 梅 隆 大 学 自然 语言 处 理 课 程 的 课堂 
讲义 中 ， 本 书 难 以 确认 这 些 故 事 出 自 何 处 。 


2. Lally et al., "Question Analysis." 





13 挖掘 《和 危险 边缘 》 的 最 佳 答案 


地 下 宇 基 人 礁 


当 戴 维 : 费 重 奇 开始 规划 IBM 的 《危险 边缘 》 挑 战 之 路 时 ， 他 想 要 
一 些 证 据 来 证 明 这 个 项 目 不 会 太 难 。 正 如 《危险 边缘 总 决赛 》 的 作者 斯 
带 芬 : 贝 元 所 指出 的 那样 ，IBM 的 内 部 阻力 太 大 ， 如 果 没 有 成 功 的 机 
会 ， 那 么 投入 大 量 的 人 力 和 时 间 会 存在 商业 政治 风险 。 三 与 此 同时 ， 他 
也 开始 担心 ， 造 一 台 计 算 机 来 玩 《 危 险 边缘 》 可 能 太 容 易 了 。 如 果 IBM 
在 这 个 项 目 上 进行 了 多 年 的 研究 ， 并 在 营销 上 人 花费 了 数 百 万 美元 ， 结 宁 
却 被 一 个 在 地 下 室 里 工作 了 一 个 月 的 黑客 揭穿 了 真相 该 怎么 办 ? 对 公司 
而 言 ， 这 会 极为 难堪 ， 更 不 用 说 浪费 时 间 了 。 := 





费 鲁 奇 和 他 的 团队 提出 了 一 种 简单 的 测试 方法 ， 叫 “地 下 室 基准 ”。 
当 费 鲁 奇 团队 的 大 部 分 成 员 花 费 一 个 月 的 时 间 把 他 们 现 有 的 问答 系统 改 
造成 玩 《 人 危险 边缘 》 的 系统 时 ， 费 鲁 奇 要 求 团队 中 最 热 表 于 这 项 工作 的 
詹姆斯 -法 恩 在 那个 月 里 独自 在 他 二 楼 的 办 公 室 里 工作 ， 用 他 能 找到 的 
一 切 工具 拼凑 出 一 个 系统 。 在 此 期 间 ， 除 了 吃 午饭 和 开会 以 外 ， 往 姆 斯 
法 恩 不 与 团队 的 其 他 成 员 一 起 工作 。 相 反 ， 他 必须 想 出 上 自己 的 方法 。 
然后 ， 法 恩 的 系统 将 与 其 他 成 员 改 造 的 系统 进行 比赛 。 如 采 往 姆 斯 :法 
恩 的 系统 表现 更 好 ， 那 么 费 鲁 奇 和 他 的 团队 就 需要 找到 解决 办 法 。 三 如 
东 他 们 不 能 在 这 段 时 间 里 展示 出 足够 的 新 想法 ， 那 么 也 会 证 明 这 个 问题 


太 过 困难 。 三 





经 过 一 个 月 的 努力 ， 两 个 团队 一 一 常规 研究 团队 和 詹姆斯 -法 恩 一 
个 人 的 团队 ， 都 发 现 把 地 下 室 基准 作为 基准 是 可 行 的 ， 地 下 室 基 准 在 某 








些 指标 上 几乎 与 改造 后 的 系统 一 样 好 ， 但 它 玩 《危险 边缘 》 的 水 平 仍然 
无 法 接近 人 类 玩家 。 与 此 同时 ， 人 詹姆斯 :法 恩 在 工作 中 发 现 了 一 些 有 湾 
力 的 想法 。 三 团队 现在 有 证 据 表 明 ， 他 们 的 问题 有 一 定 的 难度 ， 这 让 人 
松 了 口气 。 他 们 不 太 可 能 轻易 让 自己 感到 难堪 ， 但 他 们 已 经 了 解 到 ， 可 
以 运用 一 些 优秀 的 老式 蛮 力 的 方法 ， 并 在 问题 上 投入 一 些 额 外 的 人 力 来 


改进 现 有 的 方法 。 一 





然而 ， 正 如 我 们 在 上 一 章 中 看 到 的 ， 他 们 面临 着 另 一 个 问题 : 他 们 
改造 过 的 玩 《危险 边缘 》 的 系统 仍然 没有 达到 打败 人 类 玩家 所 需要 的 水 
平 。 三 他 们 没有 试图 优化 现 有 的 系统 ， 而 是 抛弃 了 原来 的 假设 ， 从 零 开 
始 。 经 过 数 月 的 实验 ， 他 们 把 注意 力 集中 到 了 一 个 名 为 DeepQA 的 系统 


他 们 的 DeepQA 系 统 从 我 们 在 上 一 章 看 到 的 问题 分 析 阶 段 开 始 。 问 
题 分 析 阶 段 的 目标 是 从 线索 中 提取 最 突出 的 信息 ， 找 到 其 中 提 到 的 人 
物 、 地 点 和 事物 ， 再 找到 线索 所 寻找 的 答案 类 型 ， 仔 细 标 记 这 些 信息 ， 
并 将 其 打包 以 供 流程 的 后 续 阶 段 使 用 。 我 们 将 在 本 章 中 介绍 DeepQA 的 
其 余 阶 段 ， 这 些 阶 段 使 沃 森 能 够 找到 正确 答案 。 





“ 沃 森 ” 寻 找 答案 的 方法 与 人 类 截然 不 同 。 人 类 可 能 会 对 问题 进行 思 
考 ， 选 择 一 个 最 合适 的 答案 来 源 ， 然 后 在 那个 来 源 中 得 找 答 案 。 人 类 如 
果 找 不 到 答案 ， 就 可 能 会 在 第 二 合适 的 来 源 中 寻找 答案 ， 如 果 在 寻找 的 
过 程 中 发 现 了 有 而 望 的 线索 ， 吏 可 能 调整 研究 路 径 。 一 旦 人 类 找到 了 答 
和 案 《〈 很 可 能 来 自 单 一 来 源 ) ， 束 会 合 上 书 ， 自 信 地 回答 问题 。 


然而 ，“ 沃 森 ” 把 每 个 问题 都 视 为 一 个 庞大 的 研究 项 目 。 这 个 过 程 很 
像 招聘 一 个 合适 的 人 来 填补 空缺 职位 。 第 一 步 涉及 创建 详细 的 职位 描 
述 ， 这 就 是 我 们 在 上 一 章 看 到 的 “天 和 森 ” 的 问题 分 析 阶 段 。“ 沃 森 ? 完 成 职 
位 描述 之 后 ， 就 会 从 无 数 来 源 处 搜集 数 以 百 计 的 求职 者 简历 ， 通 过 “ 面 
试 ? 对 其 中 许多 求职 者 进行 详细 调查 ， 然 后 仔细 权衡 每 个 人 的 优 缺 点 ， 





从 中 挑选 出 最 优秀 的 候选 人 。 三 让 我 们 从 寻找 和 评估 候选 人 的 第 一 步 ， 
即 “ 沃 森 * 列 出 候选 人 名 单 的 方式 ， 开 始 探 讨 ，“ 沃 木 ” 的 创造 者 称 之 为 生 


Y hz Mb A 人 人 、 
成 候选 答案 阶段 。 
1. Stephen Baker,“Blue JIs Born,”in Final Jeopardy:The Story of Watson,the Computer That 
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生成 候选 答案 


为 了 填补 职位 空缺 ， 你 在 这 个 阶段 的 第 一 步 是 搜集 可 能 对 这 份 工作 
感 兴 趣 的 人 的 简历 。 你 的 目标 不 是 选择 合适 的 人 ， 而 是 列 出 所 有 你 应 该 
考虑 雇用 的 人 的 名 单 。 你 可 能 会 在 很 多 地 方 找到 这 些 人 。 你 可 以 在 求职 
搜索 引擎 上 发 布 这 份 工作 ， 也 可 以 联系 你 的 职业 网 络 中 的 一 些 人 ， 还 可 
以 在 你 公司 的 网 站 上 发 布 这 个 职位 空缺 ， 甚 至 可 以 在 本 地 分 类 广告 上 登 
个 广告 。 过 一 段 时 间 ， 你 就 会 搜 到 一 大 堆 求职 者 简历 。 








“ 沃 森 ” 使 用 同样 的 方法 创建 候选 答 肥 列表 。“ 沃 森 ” 的 目标 不 是 选择 
正确 答案 ， 而 是 搜集 可 能 的 候选 答案 。 但 “天 森 ” 的 问题 比 招聘 问题 更 和 环 
Tu 与 填补 职位 空缺 不 同 ， 适 合 菜 个 职位 的 申请 人 可 能 不 止 一 个 ， 而 
《危险 边缘 》 的 线索 只 有 一 个 正确 答案 。 如 果 在 这 个 阶段 结束 时 ， 正 确 
答 采 不 在 “ 沃 森 ” 的 候选 答案 中 ， 那 么 “ 沃 森 ” 就 没有 机 会 正确 回答 了 。 因 
此 , “证 森 ? 把 某 个 答案 看 作 候 选 答 案 的 标准 很 低 。 





具体 而 言 ， 让 我 们 以 上 一 章 看 到 的 那 条 关于 2008 年 奥运 会 的 线索 为 
例 ， 看 看 “ 沃 森 ?如 何 找到 它 的 候选 答案 。 下 面 再 重复 一 遍 那 条 线索 : 





米 洛 拉 德 。 查 维 奇 差点 儿 破 坏 了 这 个 人 完美 的 2008 年 奥运 会 ， 仅 以 
百 分 之 一 秒 的 劣势 输 给 了 他 。 


在 上 一 半 搬 述 的 问题 分 析 阶 段 ,，“ 沃 森 ” 会 及 现 一 些 天 于 线索 的 东 
西 : 在 图 12.3 中 ， 我 们 看 到 “ 活 森 ”会 在 线索 中 识别 出 专 有 和 名词“ 米 洛 拉 德 
` 碍 维 奇 " 和 ”“2008 年 奥运 会 ”， 它 会 找到 重点 “这 个 人 ”， 并 且 会 找到 答案 
类 型 人”。 有 了 这 些 关 于 线索 的 信息 ,，“ 沃 森 ” 便 可 以 开始 寻找 候选 答案 
ce 








“ 沃 森 ” 到 处 寻找 候选 答案 ， 包 括 搜索 新 闻 文 草 和 百科 全 书 文章 。 它 





的 一 些 候 选 数 据 来 源 于 它 的 结构 化 数据 源 ， 这 些 数据 源 大 多 是 具有 不 同 
类 型 关系 的 列表 (还 记得 吗 ， 关 系 是 人 物 、 地 点 和 事物 之 间 的 联系 〉。 
作为 一 个 粗略 的 经 验 法 则 ， 你 可 以 假设 “ 沃 森 ” 知 道 的 关系 是 你 可 以 在 维 
基 百 科 页 面 的 边缘 找到 的 那些 “信息 框 ? 的 内 容 。 三 例如 ，2010 年 ， 维 基 
百科 的 网 页 上 关于 “ 米 洛 拉 德 .得 维 奇 ? 和 "2008 年 奥运 会 ”的 信息 框 包括 了 
查 维 奇 的 国籍 是 压 尔 维 亚 的 信息 ， 以 及 2008 年 奥运 会 在 北京 举行 的 信 
斩 。 因 此 ,“ 沃 森 ?” 会 在 候选 答案 列表 中 添加 上 “塞尔维亚 ?和 “北京 *， 连 
同 其 他 一 些 与 这 两 个 词 相 关 的 论据 。 在 表 13.1 中 ， 你 可 以 从 这 些 关 系 中 
看 到 我 为 这 条 线索 找到 的 一 些 候选 答案 。 





表 13.1 
候选 答案 来 源 候选 答案 


塞尔维亚 ( 查 维 奇 的 国籍 ) 

OR 6 寸 ( 查 维 奇 的 身高 ， 约 合 2 米 ) 
215 磅 ( 查 维 奇 的 体重 ， 约 合 97 公斤 ) 
蝶泳 、 自 由 泳 ( 查 维 奇 的 泳 姿 ) 

加 州 大 学 伯克利 分 校 ( 查 维 奇 的 大 学 ) 
北京 (2008 年 奥运 会 主办 城市 ) 

北京 国家 体育 场 ( 2008 年 奥运 会 场馆 ) 
8 月 8 日 (2008 年 奥运 会 开幕 日 期 ) 

8 A 24 H (2008 年 奥运 会 闭幕 日 期 ) 


维基 百科 信息 框 中 与 
“ 米 洛 拉 德 . 查 维 奇 ”和 
“2008 年 奥运 会 ”相关 的 
关系 





格 罗 巴 里 (标题 ) 

拉 斐 尔 - 穆 尼 奥 斯 ( 标题 、 链 接 文本 ) 

皮特 尔 : 范 : 登 . 霍 根 班 德 〈 标题 ) 
亚历山大 . 多 德 维 奇 ( 标题 ) 

米 洛 拉 德 . 查 维 奇 ( 标题 ) 

2012 年 夏季 奥运 会 游泳 ( 标题 ) 

2008 年 夏季 奥运 会 创造 的 世界 纪录 和 奥运 纪录 (标题 ) 


来 自 维基 百科 的 候选 答 
案 : 搜索 结果 中 的 文章 标 
题 、 重 定向 到 这 些 文 章 的 
文章 、 文 章 之 间 的 超 链接 
文本 , 以 及 这 些 结果 链接 
到 的 网 页 的 标题 


候选 答案 来 源 候选 答案 


迈克 尔 : dEZRGE HU. ( 标题 、 链 接 文本 ) 

勒 . 克 洛 斯 ( 标题 ) 

叶 夫 根 尼 : 科 罗 特 什 金 (标题 ) 

北京 奥运 会 (链接 文本 ) 

100 米 蝶 瀛 世界 纪录 ( 链接 文本 ) 
投票 ( 链接 文本 ) 

LER - 博 尔 特 〈 链接 文本 ) 

2008 年 夏季 奥运 会 ( 标题 ) 

2008 年 奥运 会 ( 重 定向 到 搜索 结果 的 页 面 ) 


正如 我 在 上 一 章 中 提 到 的 ， 关 系数 据 库 仅 适 用 于 一 小 部 分 线索 。 这 
条 线索 也 不 例外 : 虽然 “ 沃 森 ” 还 不 知道 这 一 点 ， 但 我 们 从 这 些 结构 化 数 
据 库 中 找到 的 候选 答案 都 没有 给 出 正确 答案 。 不 过 没关系 。 请 记 
住 ，“ 沃 森 ” 在 流程 的 这 个 阶段 不 需要 选 出 正确 答案 。 它 只 需要 确保 正确 
答 采 在 列表 中 即 可 。 这 就 是 分 天 森 * 在 很 多 地 方 寻 找 候选 答案 的 原因 。 








1. 事实 上 ， 这 些 信息 框 正 是 沃 森 的 关系 来 源 之 一 ， 这 些 关 系 是 “ 沃 森 ” 使 用 的 数据 库 
DBpedia 的 一 部 分 。 





查找 答案 


“ 沃 森 ? 继 续 在 其 庞大 的 非 结构 化 数据 存储 以 及 百科 全 书 和 报纸 文 
革 、 维 基 百 科 页 面 、 文 学 作品 、 词 典 和 主题 词 表 等 文档 中 查找 候选 答 
宁 。 但 是 ,“ 沃 森 ” 如 何在 短 短 几 秒 钟 内 从 这 些 庞大 的 文档 中 找到 答 采 
呢 ?“ 沃 森 ” 的 做 法 与 你 在 大 量 文本 文档 中 找 答案 的 方式 一 样 : 使 用 搜索 
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因为 在 比赛 中 不 允许 访问 互联 网 ， 所 以 < 沃 森 " 不 能 简单 地 使 用 谷歌 
等 网 络 搜 索引 擎 。 因 此 ， 在 断 开 * 沃 森 " 的 网 络 连 接 之 前 ， 研 究 人 员 搜集 
了 “ 沃 森 * 的 所 有 文档 ， 并 将 它们 加 载 到 自己 的 自 定义 搜索 引擎 中 。 这 些 
搜索 引擎 在 比赛 中 作为 * 沃 森 " 的 一 部 分 在 IBM 的 数据 中 心 运行 。 也 
从 < 沃 森 " 的 角度 来 看 ， 这 些 搜索 引擎 与 你 使 用 的 网 络 搜索 引擎 非常 相 
Wh: 输入 一 个 搜索 查询 ， 然 后 得 到 一 个 搜索 结果 列表 。 O 


“ 沃 森 ” 只 需要 提出 搜索 查询 就 可 以 使 用 这 些 搜索 引擎 。 为 了 进行 搜 
索 查 询 ， 它 使 用 在 问题 分 析 阶 段 找 到 的 线索 中 的 重要 单词 或 词组 ， 并 且 
在 查询 中 包含 了 答案 类 型 “总统 、 蔬 菜 、 感 官 、 二 人 组 等 ) . WREE 
线索 中 找到 了 一 种 关系 ， 比 如 演员 饰演 的 关系 ， 它 就 会 给 支持 线索 中 这 
种 关系 的 论据 以 更 大 的 权重 。 当 你 在 谷歌 上 搜索 答案 时 ， 你 可 能 有 时 会 
化 些 时 间 考 虑 要 在 搜索 查询 中 用 哪些 字 词 。“ 沃 森 ” 根 本 不 考虑 它 如 何 创 
建 查询 ， 它 只 是 用 筷 在 问题 分 析 阶 段 发 现 的 信息 来 填写 开发 人 员 创建 的 
简单 模板 中 的 空白 。 

















“ 沃 森 ” 将 这 些 但 询 发 送 到 其 搜索 引 黎 后 ， 就 会 从 搜索 结果 中 创建 更 
多 的 候选 答案 。 这 有 时 很 简单 ， 只 需 将 搜索 结 东 的 标题 添加 为 候选 答案 
即 可 。 三 其 他 时 候 ,“ 沃 条 ?使 用 了 更 微妙 的 把 戏 。 


其 中 一 个 把 戏 巧 妙 地 利用 了 维基 百科 的 文章 。 在 地 下 室 基准 测试 里 
拼 竣 系统 的 那个 月 里 ， 人 詹姆斯 -法 恩 发 现 维基 百科 对 生成 候选 答案 非常 
有 用 。 三 在 对 维基 百科 做 了 更 多 的 研究 之 后 ， 研 究 团 队 发 现 ，《 和 危险 边 
缘 》 节 目 中 竟 有 多 达 959% 的 答案 是 维基 百科 页 面 的 标题 。 三 








有 了 这 些 信息 ， 团 队 便 将 维基 百科 作为 “ 沃 森 * 生 成 候选 答案 阶段 的 
基石 。 每 当 “ 沃 森 * 在 线索 的 搜索 结果 中 找到 一 段 维 基 百 科 内 容 时 ， 它 都 
会 通过 一 个 清单 过 滤 这 个 段落 ， 从 而 生成 候选 答 采 。 首 先 ， 它 将 该 段落 
的 维基 百科 页 面 标题 添加 到 候选 答案 列表 中 。 然 后 ， 筷 会 更 仔细 地 得 看 
段落 中 与 搜索 查询 匹配 的 部 分 ， 从 段落 中 的 超 链接 文本 《〈 即 锁 文 本 ) 、 
这 些 段 落 链 接 到 的 维基 百科 页 面 的 标题 ， 以 及 重 定 癌 到 这 些 链接 的 维基 
百科 页 面 的 标题 中 创建 候选 答案 。 三 











“ 沃 森 ” 的 研究 人 员 还 建立 了 一 份 维基 百科 所 有 页 面 标题 的 列表 ， 这 
样 他 们 束 可 以 在 其 他 地 方 但 找 这 些 短语 ， 无 论 它们 是 出 现在 其 他 来 源 的 
文档 中 (在 这 些 地 方 它们 可 能 成 为 候选 答案 ) ， 还 是 出 现在 “ 沃 森 ” 问 题 
分 析 阶 段 的 线索 中 。 三 这 就 是 为 什么 < 沃 森 ? 知 道 “2008 年 奥运 会 "是 线索 
中 的 一 个 专 有 名 词 : 维基 百科 上 也 有 一 个 题 为 “2008 年 奥运 会 ”的 页 面 。 


让 我 们 再 次 回顾 那 条 关于 2008 年 奥运 会 的 线索 ， 看 看 我 们 能 从 维基 
百科 的 这 些 把 戏 中 得 到 什么 候选 答案 。 对 于 这 条 线索 ， 我 创建 了 一 
个 “ 沃 森 ” 可 能 会 提出 的 搜索 查询 ， 我 把 它 输 入 谷歌 ， 将 搜索 限制 为 只 提 
供 来 自 维 基 百 科 的 结果 。 己 还 记得 吗 ,“ 沃 森 ” 不 能 使 用 谷歌 ， 因 为 它 被 
切断 了 互联 网 ， 但 它 自 定 义 的 搜索 引擎 的 功能 大 臻 相同， 维基 百科 
是 “ 沃 森 ” 的 研究 人 员 编 程 到 “ 沃 森 ” 搜 索引 擎 的 内 容 来 源 之 一 。 如 果 我 们 
浏览 这 些 搜 索 结 果 ， 遵 循 “ 沃 森 ? 按 照 维基 百科 列 清单 的 方式 ， 即 根据 页 
面 标题 、 网 络 链接 等 添加 文本 ， 那 么 我 们 便 会 找到 更 多 的 候选 答案 ， 例 
如 : 拉 辈 尔 ' 称 尼 奥 斯 、2012 年 夏季 奥运 会 游泳 选手 皮特 尔 : 范 : 登 . 霍 根 
班 德 、 迈 克 尔 : 菲 尔 普 斯 。 我 在 表 13.1 的 下 半 部 分 展示 了 这 些 以 及 更 多 内 


Dd 


容 。 











这 些 候选 答案 看 起 来 已 经 好 多 了 ! 这 在 一 定 程 度 上 是 因为 现在 至 少 
有 一 些 符合 线索 的 答案 类 型 CAO BMI. BÆI IARAA 
道 这 些 答 案 更 有 可 能 是 正确 的 。 其 实 ， 当 我 搜集 这 些 候选 答案 来 写 这 一 
章 时 ， 我 已 经 找到 了 正确 答案 ， 并 且 有 充分 的 证 据 支 持 这 个 答案 。 撤 
管 “ 沃 条 ? 在 生成 候选 答案 的 时 候 会 用 现 这 个 证 据 ， 但 它 后 来 才 检 查 是 否 
找到 了 正确 答案 。 它 只 是 继续 搜索 ， 碍 找 越 来 越 多 的 来 源 ， 编 制 它 那 庞 
大 的 候选 名 单 。 
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9. 我 们 可 以 在 维基 百科 网 站 上 搜索 “ 米 洛 拉 德 : 查 维 奇 差点 儿 破 坏 了 这 个 人 完美 的 2008 年 
奥运 会 ， 仅 以 百 分 之 一 秒 的 劣势 输 给 了 他 ”， 碍 询 相 关 信 息 。 
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答案 进行 更 深入 的 分 析 ， 以 确定 哪 一 个 是 正确 的 。“ 沃 森 ” 需 要 投入 相当 
大 的 努力 来 研究 每 个 候选 答案 ， 这 种 工作 量 大 到 让 它 无 法 对 所 有 候选 答 
案 进 行 研究 ， 所 以 它 使 用 轻 量 级 过 滤 需 将 列表 缩小 到 一 个 较 小 的 集合 。 


在 寻找 填补 空缺 职位 的 人 选 时 ， 你 也 会 这 样 做 。 你 得 到 一 堆 简 历 之 
后 ， 下 一 步 就 是 对 求职 者 进行 更 深入 的 分 析 ， 也 就 是 说 ， 你 会 邀请 他 们 
中 的 一 些 人 到 现场 面试 。 然 而 ， 如 果 你 只 招聘 一 个 职位 ， 却 有 几 百 份 申 
请 ， 你 没有 足够 的 时 间 面 试 所 有 求职 者 。 此 时 你 可 以 使 用 轻 量 级 过 涯 需 
来 缩小 简历 范围 ， 例 如 ， 得 反 疫 有 大 学 学 历 和 缺乏 职位 相关 经 验 的 求职 
者 ， 然 后 邀请 少数 候选 人 参加 现场 面试 。 因 为 你 有 很 多 简历 要 审阅 ， 上 所 
以 这 个 过 滤器 必须 很 简单 。 

















“天 和 森 ” 的 轻 量 级 过 滤器 也 非常 简单 : 它 可 以 训 试 候选 答案 是 否 与 答 
案 类 型 〈 例 如 ， 总 统 、 城 市 、 人 ) 相 匹 配 。 三 2008 年 奥运 会 那 条 线索 的 
答案 类 型 是 人 ， 上 所 以 我 们 可 以 假设 “天 森 ? 将 线索 的 候选 答案 缩小 到 了 人 
名 范围 。 所 有 通过 轻 量 级 筛选 的 候选 答案 都 会 进入 证 据 检 索 阶 段 ， 这 
样 “ 沃 森 ? 就 可 以 花 更 多 的 时 间 搜 集 每 个 候选 答案 的 信息 。 三 





1. Ferrucci et al., "Building Watson.” 


2. 这 一 阶段 的 正式 名 称 为 “证 据 检索 阶段 ">。Baker,“Blue JIs Born." 


证 据 检索 








证 据 检 索 阶 段 类 似 于 现场 面试 。 虽 然 你 可 能 只 面试 几 名 求职 者 ， 
但 “ 沃 森 ” 会 仔细 研究 大 约 100 个 候选 答案 。" 三 为 了 做 到 这 一 点 ,，“ 沃 
和 森 ” 再 次 求助 于 它 的 数据 库 和 搜索 引擎 。 


如 宁 现 场面 试 一 位 求职 者 ， 你 可 能 不 会 通过 逐条 浏览 个 人 描述 来 了 
解 这 位 求职 者 。 你 会 根据 个 人 背景 和 职位 空缺 的 具体 情况 问候 选 人 提出 
问题 ， 和 希望 找 到 候选 人 胜任 这 份 工 作 的 独特 方式 。“ 沃 森 ” 在 研究 候选 答 
案 时 也 做 了 同样 的 事情 。 它 制定 出 具体 的 与 候选 答案 和 线索 相关 的 问 
题 ， 即 搜索 查询。 又 一 次 ， 它 求助 于 筷 的 结构 化 和 非 结构 化 数据 源 来 进 
行 这 项 研究 。 








“ 沃 森 ?将 线索 中 的 重要 词语 和 短语 与 候选 答案 结合 起 来 ， 将 候选 答 
案 视 为 必 填 短语 ， 从 而 创建 出 搜索 查询 。 如 有 果 我 们 用 谷歌 搜索 来 查询 的 
话 ， 下 面 就 是 针对 2008 年 奥运 会 线索 的 可 能 的 碍 询 。 
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图 13. 1 “ 沃 森 ”的 证 据 检 索 阶 段 。“ 沃 森 ” 首 先 使 用 轻 量 级 过 滤器 筛选 候选 答案 ， 
然后 从 它 的 数据 库 和 搜索 引擎 中 为 剩 下 的 每 个 候选 答案 搜集 大 量 证 据 





在 研究 过 程 中 ,“ 仪 森 ?搜集 了 大 量 证 据 来 文 持 每 一 个 候选 答案 ， 这 
些 证 据 的 大 部 分 只 是 其 搜索 结果 中 的 部 分 文字 片段 。 从 维基 百科 的 搜索 
结果 来 看 ， 候 选 答案 “ 拉 斐 尔 穆 尼 奥 斯 ”并 不 像 是 正确 答案 ;第 一 个 搜 
索 结果 是 关于 2008 年 奥运 会 游泳 比赛 的 页 面 ， 其 中 只 在 一 张 表格 中 提 到 
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确 答 案 〈 不 是 拉 斐 尔 . 称 尼 奥 斯 ) 的 证 据 实际 上 在 这 个 页 面 的 其 他 地 
方 ， 但 同样 ，“ 沃 森 ” 不 会 知道 这 一 点 ， 因 为 它 遵循 指 定 的 规则 ， 而 这 些 
规则 中 没有 一 条 让 它 去 看 这 个 页 面 的 那 一 部 分 。 关 于 “ 拉 斐 尔 ' 称 尼 奥 
斯 ”的 其 他 搜索 结果 也 同样 坚 无 用 处 。 








当然 ,，“ 沃 森 * 在 研究 完 它 的 第 一 个 候选 答案 之 后 并 没有 停止 。 它 会 
仔细 研究 所 有 通过 它 的 轻 量 级 过 滤 吉 的 候选 答案 。 让 我 们 用 另 一 个 候选 
答案 来 洽 试 这 个 证 据 检 索 : 皮特 尔 ' 范 登 . 霍 根 班 德 。 这 个 得 询 的 搜索 结 
果 稍 好 一 些 ， 但 仍然 不 完美 。 其 中 一 个 结果 是 霍 根 班 德 的 维基 百科 页 
面 ， 其 中 包含 这 样 一 个 段落 。 


2008 年 北京 奥运 会 ， 他 重 返 赛 场 ， 在 100 米 自由 泳 比赛 中 获得 第 五 
pr 


这 句 话 匹配 了 2008 年 、 奥 运 会 和 100《〈 很 像 百 分 之 一 ) ， 但 除 此 之 
外 都 不 太 匹 配 。 这 个 候选 答案 其 余 的 搜索 结果 也 令 人 失望 。 让 我 们 试 斌 
最 后 一 个 候选 答案 迈克 尔 : 菲 尔 普 斯 。 第 一 个 搜索 结果 是 2008 年 奥运 
会 游泳 的 维基 百科 页 面 ， 包 含 这 样 一 个 段落 。 





美国 游泳 运动 员 迈 克 尔 。 菲 尔 普 斯 以 50. 58 秒 的 成 绩 打 破 奥 运 纪 
录 ， 捍 卫 了 自己 的 冠军 头衔， 以 百 分 之 一 秒 〈0.01 秒 ) 的 优势 力 压 塞 尔 
维 亚 选 手 米 洛 拉 德 。 查 维 奇 (50.594) 。 了 三 


啊 哈 ! 这 个 搜索 结果 看 起 来 更 有 希望 。 男 一 个 搜索 结果 中 也 出 现 了 
类 似 的 段落 ， 是 维基 百科 中 迈 郊 尔 : 菲 尔 普 斯 的 页 面 。 





8 月 16 日 ， 菲 尔 普 斯 在 男子 100 米 蝶泳 比赛 中 获得 了 个 人 第 七 枚 金 
牌 ， 以 50. 58 秒 的 成 绩 打 破 了 奥运 纪录 ， 并 以 百 分 之 一 秒 的 优势 力 压 最 
强劲 的 竞争 对 手 查 维 奇 。' 








RR, (RIGA SS 50 AR EAR EER AR BOE IER SE. Ul 
果 我 们 相信 “ 沃 森 * 有 能 力 在 后 续 流 程 中 为 候选 答案 评估 证 据 ， 那 么 这 种 
方法 在 证 据 检 索 阶 段 似乎 很 有 潜力 。 

















维基 百科 并 不 是 “ 沃 森 * 在 证 据 检 索 阶段 使 用 的 唯一 资源 ， 正 如 我 前 
文 提 到 的 ，“ 沃 森 ” 使 用 了 各 种 各 样 的 资源 ， 包 括 字 典 、 主 题词 表 、 百 科 
全 书 、 新 闻 档 膝 和 关系 表 ， 比 如 “逝世 日 期 * 和 “国家 首都 "。“ 沃 森 ” 的 创 
建 者 确保 “天 和 森 ? 对 不 同 资源 的 碍 询 是 经 过 适当 定制 的 。“ 沃 森 ? 根 据 从 问 
题 分 析 阶 段 了 解 到 的 线索 和 正在 研 守 的 候选 答案 为 每 个 相关 资源 创建 得 
询 ， 有 时 还 会 使 用 线索 的 解析 树 的 信息 。 然 后 它 存 储 搜索 结果 以 供 后 续 
使 用 。 











当 我 们 友 现 这 段 话 暗示“ 反 元 尔 : 菲 尔 普 斯 "是 线索 的 正确 答案 时 ， 
我 们 将 很 满意 自己 已 经 找到 了 答案 ， 并 且 知 道 可 以 停止 寻找 了 。 但 “ 沃 
和 森 ” 不 会 像 人 类 那样 集 止 研究 ， 因 为 它 还 没有 尝试 去 理解 它 正在 搜集 的 
证 据 。 直 到 下 一 阶段 ， 它 才 开 始 对 候选 答案 进行 评判 ， 此 时 它 会 对 证 所 
进行 评分 。 在 天 森 ”看 来 ， 文 持 迈 克 尔 : 菲 尔 普 斯 的 证 据 并 不 比 支 持 反 
特 尔 ' 范 : 登 . 霍 根 班 德 的 证 据 更 有 力 ; 每 个 候选 答案 的 证 据 都 只 是 计算 机 
内 存 中 茶 个 地 方 的 一 段 文字 ， 关 似 于 面试 官 面试 求职 者 时 做 的 笔 
记 。“ 沃 森 ” 只 是 继续 它 的 研究 ， 搜 集 一 段 义 一 段 的 证 据 ， 以 支持 其 余 候 
选 答案 。 当 “ 沃 森 ” 最 终 完成 对 候选 答案 的 面试 时 ， 它 便 准备 好 了 或 许 是 
最 有 趣 的 部 分 :对 每 一 个 候选 答案 进行 评分 。 
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评分 


在 搜集 了 文 持 每 个 候选 答案 的 证 据 后 ,“ 沃 森 ” 将 结果 传递 给 一 组 评 
分 算法 。 就 像 “ 添 和 森 ” 使 用 多 种 规则 来 分 析 它 的 问题 一 样 ， 筷 的 评分 阶段 
也 使 用 多 种 规则 来 分 析 每 个 候选 答案 的 证 气 。 


这 些 评分 器 做 了 沃 条 的 绝 大 部 分 “有 趣 ” 的 工作 : 它们 估计 了 每 个 候 
选 答案 的 每 个 证 据 与 线索 的 匹配 程度 。 





这 个 阶段 类 似 于 创建 一 个 巨大 的 电子 表格 来 评估 每 个 求职 者 。 为 了 
评估 求职 者 的 每 一 项 信息 ， 你 可 以 使 用 几 个 不 同 的 标准 : 这 些 信息 是 否 
显示 出 良好 的 沟通 能 力 、 相 关 工作 经 验 、 文 化 契合 度 ， 以 及 做 事情 的 紧 
迫 感 。 在 这 个 评分 阶段 ， 你 的 目标 不 是 评估 候选 人 本 身 ， 而 是 评估 候选 
人 对 你 提出 的 问题 的 答复 ， 需 要 尽量 保持 客观 。 这 意味 着 你 可 能 需要 为 
每 个 候选 人 的 许多 信息 分 别 评分 。 然 后 ， 你 会 在 后 续 阶 段 提 取 电 子 表格 
的 结果 并 做 最 终 决 定 ， 就 像 “ 沃 森 ” 要 等 到 下 一 阶段 才 会 为 每 一 个 证 据 评 
分 一 样 。 




















“ 沃 森 ” 使 用 了 许多 评分 器 评估 证 据 ， 但 每 个 评分 费 往 往 痢 相当 简 
单 。 例 如 ， 一 个 评分 圳 统计 线索 和 文 持 段 落 之 间 重 登 单词 的 数量 。 它 用 
一 种 名 为 "IDF” 的 方法 对 每 个 单词 进行 加 权 ， 这 种 方法 赋予 生 俱 词 更 大 
的 权重 ， 以 此 充当 该 单词 所 传递 的 信息 量 的 代理 。 这 种 方法 背后 的 直觉 
是 ， 和 生僻 词 之 所 以 传递 更 多 信息 ， 恰 恰 是 因为 它们 很 生僻 : UR ER Ae Al 
段落 共有 一 个 生僻 词 〈 比 如 “但 维 奇 或 “蝎子 *”) ， 那 么 这 个 词 的 权重 应 
该 比 它们 共有 的 常用 词 〈 比 如 “几乎 或“ 一个”) 更 大 。 沪 按照 这 个 标 
准 ， 候 选 答案 “迈克 尔 : 菲 尔 普 斯 ”必然 会 得 到 好 评 ， 因 为 许多 文 持 候选 
答案 “ 迈 死 尔 : 菲 尔 普 斯 ”的 段落 和 线索 共用 生 俱 词 ， 例 如 “ 查 维 奇 ”。 对 这 
个 评分 器 而 言 ， 文 持 其 他 候选 答案 的 段落 不 会 有 这 人 么 好 的 表现 。 




















这 个 单词 重合 评分 器 存在 明显 的 弱点 ， 它 完全 忽略 了 支持 段落 中 的 
单词 顺序。 例如 下 面 这 条 线索 : 





他 于 2003 年 6 月 荣 麻 中 家 主席 。 


对 于 下 面 这 个 段落 ， 单 词 重 登 评分 器 会 给 出 很 高 的 评分 ， 尽 管 它 暗 
示 的 答案 是 错误 的 : 


美国 总 统 乔治 。 布 什 曾 在 2003 年 6 月 盛赞 中 国 。 


很 明显 ， 这 个 评分 右 会 给 这 个 错误 的 段落 太 大 的 权重 ， 仅 仅 因 为 它 
NARS HS BS. 


因此 ,“ 沃 森 ? 也 有 一 些 可 以 弥补 这 一 缺陷 的 评分 器 。 其 中 一 个 评分 
铝 试 图 按 顺 序 对 齐 线索 和 上 段落 中 的 单词 ， 通 过 搜索 算法 找到 二 者 之 间 的 
对 齐 方式 。 一 旦 对 齐 ， 匹 配 的 单词 会 让 评分 更 高 ， 而 不 匹配 或 缺失 的 单 
词 则 会 让 评分 更 低 。 和 以 前 一 样 ， 对 齐 评分 器 更 重视 生僻 词 ， 它 更 喜欢 
与 生 售 词 匹配 的 对 齐 ， 而 不 是 与 常用 词 罗 配 的 对 齐 。 





IBM 的 研究 人 员 还 添加 了 一 个 性 别 评分 器 ， 很 明显 ,“ 沃 森 ” 在 测试 
中 看 到 下 面 这 条 线索 后 ， 束 会 及 现 这 个 评分 器 必 不 可 少 : 





1912 年 3 月 16 日 ， 第 Rane” EK 3536 (Thelma 
Catherine Ryan) 在 内 华 达 州 出 生 。 


在 拥有 性 别 评分 器 之 前 ，“ 沃 森 ” a AJEA”. CEW 
ERIE J6 SERS ETR Pd IL SR i Zo 


* 沃 森 "* 还 在 评分 器 中 使 用 了 解析 树 。 有 一 个 评分 器 类 似 于 单词 重 估 
评分 器 ， 但 它 不 是 统计 重 登 的 单词 ， 而 是 计算 在 线索 的 解析 树 中 相连 的 
单词 在 支持 段落 的 解析 树 中 仍然 相连 的 频率 。 = 另 一 个 评分 器 试图 将 线 
索 的 解析 树 与 段落 的 解析 树 直接 对 齐 ， 如 果 对 齐 后 得 到 的 两 个 解析 树 的 


重点 与 候选 答案 罗 配 ， 那 么 这 束 为 候选 答 采 提供 了 强 有 力 的 文 持 。 


HE DE OD ais ti BER Ze ASCE BS EN Ae SB, EP od a ha 
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总 共有 100 多 个 评分 器 。 与 网 飞 交 的 模型 一 样 ， 每 当 “ 天 森 ? 背 后 的 团队 
中 有 人 尽 现 它 评价 答案 的 方式 有 缺陷 ， 他 就 可 以 把 自己 的 直觉 变 成 数学 
函数 ， 将 其 编码 成 评分 占 ， 测 试 它 是 人 否 可 以 改进 “ 活 森 *”， 果 真有 改进 的 
Wi, fü e SIUS RUMP. 








当 “ 沃 森 ” 最 终 完 成 对 候选 答案 的 评分 时 ， 它 仍然 没有 形成 天 于 哪个 
候选 答案 最 好 的 意见 ， 尺 管 它 已 经 更 接近 这 一 步 了 。 此 时 ， 它 已 经 列 出 
本文 持 候 选 答 采 的 每 一 条 证 据 的 数字 评分 表 。“ 沃 森 ” 最 终 将 在 它 的 最 后 
阶段 一 一 汇总 和 排名 阶段 ， 对 候选 答案 形成 自己 的 意见 。 
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汇总 和 排名 








你 可 能 会 认为 ， 对 “ 沃 森 ” 而 言 ， 要 选 出 最 佳 候选 答案 ， 它 只 需 一 个 
简单 的 分 类 器 就 可 以 ， 就 像 我 们 在 儿童 食谱 的 例子 中 所 做 的 那样 ， 或 者 
就 像 人 工 神 经 元 对 它 的 输入 所 做 的 那样 。 但 对 “ 添 条 ?而 言 ， 事 情 并 没有 
那么 简单 。“ 沃 森 ” 的 确 使 用 了 分 类 器 ， 但 它 需 要 先 把 证 据 评分 表 转 换 成 
正确 的 格式 。 还 记得 吗 ， 当 创建 电子 表格 来 评估 每 个 候选 答案 时 ， 我 们 
可 能 有 很 多 证 据 文 持 其 中 一 些 候 选 答案 ， 因 此 这 些 候选 答案 的 评分 就 会 
很 高 ， 而 有 些 候选 答案 只 有 很 少 证 据 或 没有 证 据 ， 因 此 这 些 候选 答案 的 
评分 就 会 很 低 。 候 选 答 案 列 表 在 其 他 方面 也 很 不 实用 ， 例 如 其 中 可 能 会 
有 重复 的 答案 等 。 

















简 而 言 之 ， 这 个 电子 表格 还 没有 以 正确 的 形式 饥 送 到 分 类 融 中 ， 因 
为 “ 沃 森 ” 要 分 类 的 东西 一 一 候选 答案 ， 是 多 样 化 的 。 加 权 平 均 分 类 器 期 
望 你 分 类 的 每 个 项 目 都 有 相同 的 特征 集 。 在 这 些 候选 答案 上 使 用 分 类 此 
束 像 尝试 用 一 个 方形 的 容 头 对 圆 形 的 川 眼 一 样 ， 完 全 不 会 起 作用 。 为 了 
解决 这 个 问题 ,，“ 沃 森 * 在 生成 最 终 答案 之 前 ， 使 用 了 7 个 独立 的 变换 厅 
列 ， 每 个 变换 序列 都 有 自己 的 分 类 器 。 三 你 可 以 在 图 13.2 中 看 到 它 的 示 


意图 。 


其 中 一 个 变换 序列 合并 了 重复 的 答案 。 在 我 们 的 奥运 会 例子 中 ， 候 
选 答 案 菲 尔 普 斯 和 迈 死 尔 ' 菲 尔 普 斯 一 样 ， 博 尔 特 和 尤 塞 恩 . 博 尔 特 一 
样 。 有 时 “ 添 和 森 ?有 一 个 更 具体 的 答案 厂 本 和 一 个 不 太 有 具体 的 答案 版 本 ， 
例如 通用 的 “ 剑 ” 和 “亚瑟王 的 神 剑 "〈 一 把 传阅 中 的 剑 的 名 字 ) 。 在 每 一 
种 情况 下 ,，“ 沃 森 ” 部 将 这 些 重复 的 答案 合并 成 一 个 答案 ， 并 在 这 个 过 程 
中 把 支持 它们 的 证 据 结合 在 一 起 。 三 




















“ 沃 森 ” 面 临 的 男 一 个 问题 是 ， 对 于 不 同 的 候选 答案 ， 每 个 评分 占 的 


评分 可 能 各 不 相同 。 因 此 ，7 个 变换 序列 中 的 另 一 个 以 对 评分 器 有 意义 
的 方式 组 合 这 些 评分 。 对 于 每 个 候选 答案 ,“ 添 牺 ?” 取 一 些 评分 器 的 评分 
结果 ， 然 后 进行 平均 ， 而 对 于 其 他 评分 器 ,，“ 沃 森 ” 从 文 持 候选 答案 的 所 
有 证 据 中 取 评 分 絮 的 最 高 评分 。 寅 然而 ,，“ 沃 森 * 的 排名 流程 中 的 其 他 阶 
段 会 按 比例 对 评分 进行 变换 或 填充 缺失 的 特征 值 ， 以 此 改变 评分 。 三 





最 后 ， 一 个 善于 从 糟糕 的 候选 答案 中 挑 出 优秀 候选 答案 的 分 类 器 可 
能 并 不 善于 挑 出 最 优秀 的 候选 答案 。 因 此 ，“ 沃 森 ” 流 程 中 的 一 个 变换 序 
列 使 用 了 一 个 分 类 器 来 过 小 挥 最 差 的 候选 答案 ， 男 一 个 变换 序列 选 出 5 
个 相对 不 错 的 候选 答案 ， 然 后 义 有 一 个 变换 序列 从 这 5 个 候选 答案 中 选 
出 最 佳 候 选 答案 。 三 
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无 二 的 ， 因 为 它们 的 汇总 、 变 换 和 分 类 步骤 各 不 相同 《有些 变换 黄 至 跳 过 了 其 中 的 
一 个 或 多 个 步骤 ) ， 但 框架 让 每 个 转换 过 程 的 每 个 步骤 起 作用 


这 些 变换 序列 最 终 操 控 了 “ 添 和 森 ”的 候选 答案 ， 直 到 它们 的 形式 有 利 
于 应 用 简单 的 分 类 器 ， 这 是 流程 的 最 后 阶段 。 这 些 变换 序列 削 去 了 方形 
桦 头 的 棱角， 使 之 穿 过 圆 形 的 川上 腿 ， 这 样 “ 沃 森 ”就 能 最 终 把 答案 馈 入 分 
Rat Io 
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于 ， 它 们 每 一 个 都 有 相同 的 结构 。 这 并 不 意味 着 它们 做 了 同样 的 事情 ， 
正如 我 们 刚刚 看 到 的 那样 ， 它 们 每 一 个 都 为 “ 沃 森 * 执 行 了 不 同 的 操作 。 
但 “ 沃 森 ” 每 一 个 变换 序列 检测 数据 的 方式 是 相同 的 。 它 们 每 一 个 都 由 三 
个 基本 元 系 组 成 : 证 据 汇 总 步骤 ， 执 行 该 层 竺 有 操作 的 处 理 步 又 《比如 
操作 特征 或 过 滤 候 选 答案 ) ， 以 及 为 下 一 阶段 候选 答案 重新 评分 的 分 类 
步 又。 在 茶 种 程度 上 ， 这 个 7 层 结构 类 似 于 7 层 神经 网 络 ; 你 甚至 可 以 把 
它 想象 成 一 个 打 了 兴奋 剂 的 目 定 义 神 经 网 络 ， 在 这 里 ， 神 经 元 层面 的 操 
作 比 简单 的 神经 元 更 具有 表现 力 ， 这 有 点 像 谷 歌 的 “ 盗 梦 空间 网 络 ”。 三 
每 一 层 的 前 两 个 步骤 对 候选 答案 进行 非 线性 变换 ， 第 三 个 步骤 一 一 分 类 
步骤 ， 是 一 个 简单 的 线性 分 类 器 ， 后 面 是 我 们 在 上 一 章 看 到 的 S 型 曲 
线 。 这 些 变换 的 结果 就 是 “ 添 条 ?的 最 终 答案 列表 ， 每 个 答案 都 有 一 个 置 
信和 度 分 数 。“ 添 条 ?选中 的 答案 是 这 个 列表 中 得 分 最 高 的 候选 答案 。 




















1. D.C.Gondek et al.,“A Framework for Merging and Ranking of Answers in DeepQA,"IBM 
Journal of Research and Development56,no.3.4(2012). 

2. Gondek et al.,“A Framework for Merging and Ranking of Answers in DeepQA.” 

3. Gondek et al.,“A Framework for Merging and Ranking of Answers in DeepQA.". 

4. Gondek et al.,*A Framework for Merging and Ranking of Answers in DeepQA.”。 同 样 ， 
































这 种 变换 使 用 了 机 器 学 习 和 统计 学 的 典型 技巧 。 例 如 ， 对 于 特征 “is_geo_match”， 他 们 可 
能 会 添加 一 个 名 为 “is_geo_match_present” 的 新 特征 ， 来 表示 第 一 个 特征 缺失 时 的 情况 。 

5. 詹姆斯 :法 恩 与 作者 的 私人 信件 。 

6. 我 们 目前 还 不 清楚 这 是 否 可 以 正式 编码 为 神经 网 络 ， 需 要 添加 额外 的 层 来 处 理 每 一 
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层 的 前 两 个 步骤 中 候选 答案 之 间 的 交互 。 


调整 < 沃 森 " 


坚 无 疑问 ,“ 沃 条 "是 个 庞大 的 系统 。 就 其 复杂 性 而 言 ， 它 同样 缓慢 
且 难 以 调整 。“ 沃 森 * 的 早期 版 本 是 在 单个 CPU 上 运行 的 ， 它 回答 一 个 问 
题 要 花费 两 个 小 时 。' 三 幸运 的 是 ，“ 沃 森 ” 的 设计 使 它 的 许多 阶段 可 以 并 
行 运行 。 例 如 ，“ 沃 森 ” 并 不 是 逐个 研究 每 个 候选 答案 ， 而 是 通过 把 工作 
分 配给 许多 CPU， 同 时 研究 所 有 候选 答案 。 地 过 让 “ 活 森 ”并 行 工 作 ， 并 
将 其 工作 分 配 到 大 约 2880 个 处 理 器 上 ， 费 鲁 奇 的 团队 将 “ 沃 森 ?回答 一 个 
问题 的 时 间 缩 短 到 5 秒 以 内 ， 而 且 其 速度 快 到 足以 击败 往 宁 斯 和 和 鲁 特 。 


但 是 费 鲁 奇 和 他 的 团队 如 何 推理 如 此 复杂 的 系统 ?“ 沃 森 ” 是 一 个 庞 
大 的 软件 项 目 ， 需 要 协调 庞大 的 研究 团队 ， 用 大 约 25 名 研究 人 员工 作 长 
达 4 年 。 三 改动 不 能 擅自 进行 。 如 果 一 名 研究 人 员 改 进 了 他 那 部 分 系 
统 ， 那 么 他 的 改动 可 能 会 在 其 他 地 方 引发 意 想 不 到 的 问题 。 为 了 设计 和 
调整 像 * 汪 和 森 ?” 这 样 的 复杂 机 器 ， 费 鲁 奇 和 他 的 团队 广泛 地 使 用 实验 法 和 
端 到 端 指标 。 他 们 仔细 衡量 了 他 们 所 做 的 每 一 个 改变 ， 并 对 “ 沃 牺 ? 进 行 
了 “边际 ?分 析 ， 以 衡量 如 果 他 们 增加 或 删除 一 个 评分 器 , “TAR” RIN 
会 如 何 ; 或 者 如 果 他 们 只 用 一 个 评分 器 ,“ 添 条 ”的 表现 会 如 何 。 目 始 至 
终 ， 他 们 都 在 密切 关注 “天 森 ? 在 “优胜 者 云 ? 中 的 位 置 , “优胜 者 云 ? 即 我 
们 在 上 一 草 中 说 到 的 散 点 图 ， 它 总 结 了 《和 危险 边缘 》 人 类 冠军 在 不 同 的 
目 信 水 平 下 回答 问题 的 准确 程度 。 


1. Ferrucci et al., "Building Watson.” 


2. Ferrucci et al., "Building Watson." 


重新 审视 DeepQA 


“ 尖 森 ”究竟 有 什么 特别 之 处 ， 让 它 能 够 在 《人 危险 边缘 》 比 赛 中 击败 
人 类 苋 争 对 手 ， 而 且 当 时 还 没有 其 他 系统 能 与 它 匹 敌 ?“ 活 森 ”与 先前 系 
统 的 不 同 之 处 主要 在 于 其 庞大 的 规模 和 对 DeepQA 的 使 用 。 到 目前 为 
止 ， 我 一 直 在 谈论 “ 沃 森 ”“ 和 DeepQA， 就 好 像 它们 是 一 回 事 ， 但 它们 在 
技术 上 还 是 有 些 不 同 的 。DeepQA 是 一 个 数据 处 理 引 擎 ， 而 “4 天 森 一 一 
至 少 是 那个 我 在 前 两 章 谈 到 的 玩 《 和 危险 边缘 》 的 程序 ， 是 建立 在 
DeepQA 基 础 之 上 的 。DeepQA 是 一 个 更 通用 的 引擎 ， 可 以 用 于 其 他 用 
途 ，IBM 己 经 在 医学 和 游戏 等 各 种 应 用 中 对 它 进行 了 测试 。 费 鲁 奇 和 他 
的 团队 发 现 ， 当 他 们 将 DeepQA 应 用 到 他 们 在 《和 危险 边缘 》 之 前 参与 的 
一 个 问答 比赛 时 ， 它 的 表现 要 优 于 他 们 为 那个 比赛 专门 构建 的 系统 。 三 
与 此 同时 ， 相 反 的 情况 却 并 非 如 此 : 当 试 图 在 第 一 个 月 的 工作 中 采用 更 
老 的 、 专 门 针 对 比赛 的 系统 来 玩 《 和 危险 边缘 》 时 ， 他 们 却 遭 遇 了 惨败 。 











DeepQA 与 深度 学 习 无 关 。DeepQA 中 的 “Deep” 指 的 是 深度 自然 语言 
处 理 或 深度 问答 ， 它 是 IBM 用 来 将 其 与 更 简单 的 自然 语言 处 理 方法 ( 比 
如 其 在 各 个 评分 器 中 使 用 的 方法 ) 进行 对 比 而 使 用 的 词 。DeepQA 的 强 
大 之 处 在 于 融合 了 这 些 浅 层 方 法 ， 这 是 它 的 核心 设计 原则 之 一 ， 融 像 网 
环 奖 的 最 佳 模型 是 简单 模型 的 混合 体 一 样 。 三 














1. Ferrucci et al.,“Building Watson.” 
2. Rob High,The Era of Cognitive Systems:An Inside Look at IBM Watson and How It 
Works, Marketing White Paper,Redbooks, accessed 


December27,2017,http://www.redbooks.ibm.com/redpapers/pdfs/redp4955.pdf. 


ARR” A E peny? 


RRR EE EMAA INH Ae GaU RUFI TIBET 答案 
MEPE SL REE: 不 完全 是 ， 至 少 与 人 类 智慧 比较 的 话 古 
这 样 。 为 了 理解 原因 ， 让 我 们 回顾 一 下 “ 沃 森 * 是 如 何在 给 出 线索 时 找到 
正确 答案 的 。“ 沃 森 ” 的 第 一 步 是 用 人 类 创造 的 各 种 规则 来 梳理 线索 。 它 
创建 了 一 个 句 型 图 ， 并 使 用 人 工 制作 的 规则 提取 并 标记 用 于 回答 线索 的 
关键 信息 。 然 后 “ 沃 森 ”使 用 这 些 信 息 在 搜索 引擎 上 搜索 正确 答案 ， 再 根 
据 搜 索 结 果 创 建 候选 答案 列表 ， 然 后 对 这 些 候选 答 采 进行 涌 选 ， 并 搜索 
更 多 支持 每 个 候选 答案 的 证 据 。 在 此 之 后 ， 它 对 搜集 到 的 证 据 进行 评 
分 ， 最 后 用 一 系列 的 变换 和 分 类 器 选 出 最 佳 候选 答案 。 








然而 ， 在 这 个 流程 中 , “ 添 和 森 ?并 没有 真正 理解 线索 要 问 的 是 什么 。 
它 只 是 章 循 一 系列 确定 的 步 又， 用 人 工 设计 的 规则 和 从 数据 中 学 到 的 权 
重 来 检查 问题 并 对 证 据 进 行 评分 。 





我 们 可 以 通过 观察 “ 沃 森 ” 在 现场 比赛 中 出 现 的 问题 来 更 深入 地 了 解 
它 的 局 限 。 我 们 已 经 看 过 一 个 例子 ，“ 沃 森 * 在 没有 性 别 评分 器 之 前 猜测 
理 公 德 :尼克 松 是 美国 第 一 夫人 ， 这 个 结果 让 人 感到 顾 有 些 槛 罚 。 在 “ 沃 
森 ” 缺 少 正 确 的 评分 融和 过 滤 占 的 时 候 ， 这 类 问题 随时 会 发 生 。 相 关 的 
问题 导致 “ 沃 森 ”* 有 时 会 给 出 令 人 反感 的 答案 。 


正如 斯 带 芬 :贝克 在 《危险 边缘 总 决赛 》 一 书 中 提 到 的 那样 ，“ 沃 
森 * 和 几 位 人 类 对 手 在 一 次 练习 中 被 要 求 用 一 个 4 个 字母 的 单词 来 表 
“否定 ”。 虽 然 “ 沃 条 ?并 不 太 有 信心 抢答 ， 但 它 显示 在 屏幕 的 首选 答案 
是 “Fuck (他 妈 的 ) 是 什么 意思 ? ” (幸运 的 是 ，《 危 险 边缘 》 的 一 位 
高 管 及 其 同事 党 得 这 很 有 趣 ， 并 没 感觉 到 恼火 。) 然而 ， 这 并 不 是 个 别 
的 事故 : 研究 小 组 发 现 ,“ 添 条 2” 有 59% 的 回答 可 能 会 让 人 感到 尴 众 ， 即 
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队 则 构建 了 脏话 过 滤器 ， 它 可 以 在 现场 比赛 中 审查 “天 森 ”。 三 











“ 沃 森 ” 还 受到 它 与 世界 交互 方式 的 限制 。 例 如 ， 在 一 次 现场 比赛 
H, “ 沃 森 ?” 遇 到 了 一 个 它 可 以 非常 准确 地 回答 线索 的 类 别 。 ARAR” AIE 
建 者 巧妙 地 为 它 编 写 了 程序 ， 让 它 在 选择 题目 类 别 的 时 候 更 青睐 这 些 类 
别 。 对 * 沃 条 ?而 言 ， 不 幸 的 是 ， 这 个 类 别 的 线索 也 非常 短 ， 这 意味 着 每 
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DeepQA 的 大 部 分 信息 都 来 自 IBM 本 身 ，IBM 有 财务 激励 机 制 ， 还 
有 一 支 熟 练 的 营销 团队 来 宣传 “ 沃 森 ? 是 真正 的 “智能 ?机 器 。 三 例如 ， 在 
IBM 的 一 份 日 皮 书 中 ，IBM 将 “ 沃 森 ” 的 评分 占 摘 述 为 “推理 算法 ”"， 这 有 
点 牵强 ， 因 为 其 中 一 些 评分 器 只 做 诸如 统计 重 有 登 单词 的 数量 之 类 的 事 
情 。IBM 推 销 “ 沃 森 ” 是 “各 类 问题 的 通用 智能 解决 方案 ”。 





无 论 “ 沃 森 * 在 《人 危险 边缘 》 比 赛 中 表现 得 多 么 出 色 ， 它 最 初 的 版 本 
仍然 是 针对 这 一 非常 具体 的 任务 而 设计 的 。 就 像 “ 实 用 主义 理论 ” 队 专 注 
于 万 得 网 飞 奖 一 样 ，“ 沃 森 ” 背 后 的 团队 专注 于 构建 一 个 可 以 玩 《 人 危险 边 
缘 》 的 系统 。 所 以 “ 沃 森 ”〈 至 少 是 原始 版 本 的 ) 在 不 被 重新 改造 的 情况 
下 做 不 了 其 他 任何 事情 。 事 实 上 ，IBM 已 经 将 “ 沃 森 ” 推 广 到 各 种 应 用 。 
这 些 系统 有 些 可 能 与 最 初 的 “ 沃 森 * 的 实现 方式 非常 不 同 ， 因 此 我 们 很 难 
判断 “ 沃 森 ?在 其 他 应 用 上 的 性 能 。 它 在 《危险 边缘 》 之 外 有 时 也 会 收 到 
令 人 失望 的 评价 。 














尽管 如 此 ， 妆 下 森 ” 首 次 引起 胡 动 时 ，IBM 还 是 公布 了 它 的 工作 原 
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在 《和 危险 边缘 》 游 戏 中 ， 像 “天 森 " 这 样 的 玩家 必须 在 游戏 中 做 出 许 
多 与 理解 目 然 语言 无 关 的 决策 。 这 些 决 策 涉 及 更 高 层次 的 策略 ， 例 如 何 
时 抢答 、 有 是 否 抢答 、 下 注 多 少 ， 以 及 下 一 步 该 选择 哪 条 线索 。 除 了 线索 
评分 絮 之 外 ，“ 活 森 ” 背 后 的 团队 还 为 “ 沃 森 ” 精 心 设计 了 算法 ， 让 它 可 以 
做 出 这 些 战略 决策 。 











这 些 算法 是 建立 在 “ 沃 和 森 ”的 人 类 对 手 行为 模型 的 基础 上 的 。 我 们 可 
以 用 整整 一 章 来 讨论 这 个 话题 ， 概 述 “ 添 森 ? 如 何 模拟 游戏 的 未 来 状态 以 
做 出 决定 。 但 是 ， 我 们 与 其 在 下 一 章 中 继续 关注 “天 和 森 ”， 不 如 看 看 更 普 
过 的 问题 ， 即 乔 能 机 器 如 何 玩 策 略 游戏 。 


1. Baker, Watson Takes on Humans,"128. 

2. Casey Johnston,“Bug Lets Humans Grab Daily Double as Watson Triumphs on 
Jeopardy,” Ars Technica,February17,2011. 

3. High,The Era of Cognitive Systems. 

4. Daniel Jurafsky and James H.Martin,Speech and Natural Language Processing(Upper 


Saddle River,NJ:Prentice Hall,2015). 
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我 并 不 建议 按照 自己 的 想象 来 设计 策略 。 相 反 ， 策 略 应 该 与 计算 机 
的 能 力 和 弱点 相 匹配 。 计 算 机 速度 快 ， 精 度 高 ， 而 分 析 和 识别 能 力 差 。 
因此 ， 它 应 该 比 人 类 更 多 地 使 用 变 力 计算 。 


克 劳 德 .香农 (Claude Shannon) (5) 


1. Claude E.Shannon,“Programming aComputer for Playing Chess,”Philosophical 
Magazine7,no.314(1950). 


通过 搜索 玩 游戏 


在 本 书 的 第 一 章 中 ， 我 们 看 到 ，18 世 纪 的 自动 机 和 机 械 发 条 的 原理 
是 一 样 的 。 它 们 仅 使 用 滑轮 、 齿 轮 、 杠 杆 等 机 械 部 件 就 能 表演 惊人 的 特 
技 ， 例 如 演奏 大 键 众 ， 写 出 清晰 易 读 的 句子 ， 用 它们 手中 的 铅笔 绘制 详 
细 的 插图 。 它 们 通过 遵循 编码 在 发 条 中 的 程序 来 实现 这 些 功能 。 





在 本 书 中 ， 我 们 过 到 了 可 以 模拟 各 种 各 样 人 类 行为 的 计算 机 程序 ， 
在 接 下 来 的 两 章 里 ， 我 们 将 更 深入 地 研究 一 些 计算 机 程序 ， 它 们 被 开发 
用 来 玩 国际 象棋 和 围棋 之 类 的 游戏 ， 并 且 胜 过 了 最 优秀 的 人 类 棋 手 。 这 
些 游 戏 目 动机 是 以 现代 数字 计算 机 程序 的 形式 存在 的 ， 但 是 与 它们 的 机 
械 祖 先 一 样 ， 现 代 计 算 机 仍然 遵循 程序 。 


事实 上 ， 玩 国际 象棋 和 围棋 等 游戏 的 计算 机 程序 只 需要 用 物理 设备 
就 可 以 完美 地 复制 出 来 。 这 些 机 械 计算 机 ， 有 时 被 称 为 机 械 图 郝 机 ， 可 
以 仅 由 木 制 部 件 构 成 ， 由 手 摇 曲柄 提供 动力 。 这 种 木 制 计算 机 可 能 需要 
非 营 庞大 的 、 大 到 可 能 需要 不 切实 际 的 巨额 投资 来 建造 并 提供 动力 ， 但 


机 械 计算 机 至 少 在 理论 上 是 可 能 的 。 一 








如 宁 花 点 时 间 思 考 这 个 问题 ， 你 融会 发 现 ， 一 个 由 手 摇 曲 柄 驱动 的 
木 制 装置 可 以 下 一 盘 高 水 平 的 国际 象棋 ， 这 一 前 提 是 非 同 寻 第 的 。 毕 
竟 ， 这 正 是 机 械 “ 土 耳 其 人 ”的 魅力 所 在 。 为 什么 这 样 的 装置 不 仅 能 玩 策 
略 游戏 ， 而 且 还 能 玩 得 那么 好 ， 甚 至 战胜 了 最 优秀 的 人 类 玩家 呢 ? 这 便 
是 贯穿 本 章 的 核心 问题 ， 当 我 们 探索 如 何 编程 机 器 去 玩 集 略 游 戏 时 ， 你 
应 该 时 刻 描 摩 这 个 问题 。 这 些 机 器 的 关键 特性 之 一 是 有 预测 能 力 ， 它 们 
赁 此 预测 游戏 未 来 会 如 何 发 展 。 为 了 了 解 其 中 的 工作 原理 ， 让 我 们 从 一 
个 简单 的 游戏 开始 ， 玩 这 个 游戏 的 程序 只 需要 预测 自己 的 着 法 ， 这 个 游 
戏 便 是 经 典 的 数 独 。 




















1. 











木 制图 灵机 和 现代 计算 机 之 间 的 主要 区 别 是 现代 计算 机 可 以 运行 得 更 快 ， 而 且 内 存 
占用 的 空间 要 少 得 多 ， 这 也 是 你 不 会 购买 木 制图 灵机 作为 你 的 下 一 台 计 算 机 的 原因 。 








数 独 


数 独 是 一 种 游戏 ， 在 这 个 游戏 中 ， 唯 一 的 玩家 必须 把 数字 1 到 9 填 到 
9x9 网 格 中 的 空格 (单元 格 ) 里 。 对 于 每 局 数 独 游戏 ， 题 目 创建 者 会 在 
某 些 单元 格 中 预先 填 好 数字 ， 因 此 在 游戏 开始 之 前 ， 网 格 看 起 来 与 图 
14.1 类 似 。 


数 独 游戏 的 目标 是 在 每 个 空格 中 填 入 一 个 数字 ， 使 每 一 行 、 每 一 
列 ， 每 一 豆 〈 即 9 个 3x3 子 集 网 格 ) 中 都 含有 数字 1 到 9， 且 不 重复 。 





人 类 解数 独 题 的 方法 是 ， 一 次 填 一 个 方 格 ， 其 间 结 合 一 些 猜 测 和 排 
除 的 过 程 。 例 如 ， 我 们 可 能 会 注意 到 ， 第 一 行 的 第 三 个 方 格 除了 5 不 可 
能 是 任何 其 他 数字 ， 所 以 我 们 把 5 填 入 那个 方 格 ， 然 后 继续 。 
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有 些 单 元 格 有 些 难 度 : 乍 一 看 ， 倒 数 第 二 行 的 第 三 个 单元 格 可 能 是 
1、2 或 8。 所 以 我 们 可 以 先 关 注 其 他 的 方 格 ， 和 希望 这 样 能 在 我 们 稍 后 回 
到 那个 单元 格 时 减少 可 选 的 数字 ;或 者 我 们 可 以 用 铅笔 填 入 其 中 一 个 数 
字 ， 比 如 8， 看 看 会 有 什么 结 采 。 上 面 这 个 题目 相对 容易 ， 因 为 它 不 需 
要 太 多 猜测 。 在 更 难 的 题目 中 ， 如 果 不 进行 一 些 猜 测 ， 游 戏 根本 无 法 继 





20 世 纪 90 年 代 ， 数 独 风 雄一 时 ， 这 主要 归功 于 一 位 温文 尔 雅 的 新 西 
兰 人 韦 恩 : 古 尔 德 (Wayne Gould) 。 上 古 尔 德 设 计 了 一 个 可 以 生成 数 独 题 
目的 计算 机 程序 ， 然 后 把 题目 免费 分 发 给 世界 各 地 的 报纸 。 古 尔 德 的 程 
序 可 以 生成 不 同 难度 级 别 的 数 独 题 目 : 有 些 题目 即便 对 于 新 手 玩家 也 很 
容易 ， 比 如 上 图 中 那 道 题 ， 而 有 些 题 目 对 于 经 验 丰富 的 玩家 也 有 一 定 的 
挑战 性 。 也 许 比 古 尔 德 的 计算 机 程序 更 聪明 的 是 他 的 营销 策略 : 他 免费 
回报 纸 提 供 他 的 题目 。 作 为 回报 ， 报 纸 为 他 的 计算 机 程序 和 图 书 做 广 
告 ， 数 独 玩家 们 如 饥 似 海地 阅读 他 的 书 ， 由 此 ， 他 的 书 卖 出 了 400 多 万 
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里 然 数 独 玩 起 来 很 有 挑战 性 ， 但 编写 一 个 计算 机 程序 来 解数 独 题目 
并 不 很 难 。 硅 谷 的 软件 工程 师 在 工作 面试 时 就 会 遇 到 ， 而 且 几 乎 每 一 等 
人 工 智 能 入 门 谍 都 会 教授 你 解决 这 类 题目 所 需要 的 关键 工具 : 搜索 算 
ik. 


我 们 已 经 看 到 ， 目 动 驾 驶 汽车 使 用 搜索 算法 在 大 地 图 上 寻找 路 径 ， 
规划 把 车 停 到 空 停 车 位 的 方法 ， 我 们 还 看 到 语音 识别 软件 使 用 搜索 算法 
来 实现 录音 的 转录 。 我 们 使 用 搜索 算法 来 解数 独 题 的 方法 与 之 类 似 ， 只 
古 程序 必须 搜索 一 系列 的 数字 来 填 满 九 证 格 ， 而 不 是 搜索 在 地 图 上 移动 
再 要 采取 的 一 系列 步骤 。 











在 数 独 游戏 中 ， 有 数 万 亿 种 可 能 的 九宫 格 配 置 。 一 个 骨 在 解数 独 题 
的 计算 机 程序 需要 搜索 这 些 九 宫 格 配置 ， 遍 有 历 其 中 的 许多 配置 ， 直 到 找 
到 一 个 完全 填 满 的 九宫 格 ， 同 时 保证 它 是 合法 的 数 独 布局 。 在 图 14.1 的 
九宫 格 中 ， 有 45 个 空格 ， 因 此 搜索 算法 必须 搜索 许多 不 同 的 方式 来 用 数 
字 填 充 所 有 这 些 空格 ， 直 到 找到 一 些 有 效 的 配置 。 











为 了 搜索 这 些 组 合 ， 搜 索 算 法 会 对 不 同 状态 下 的 数 独 九宫 格 进行 推 
断 。 九 宫 格 的 状态 由 当前 九宫 格 中 的 数字 精确 描述 。 当 搜索 算法 在 九 吝 
格 中 填 入 某 个 数字 时 ， 它 便 会 从 一 个 状态 转移 到 为 一 个 状态 ， 即 少 一 个 





空格 的 状态 。 在 其 他 时 候 ， 搜 索 算法 可 能 会 从 九宫 格 中 删除 一 个 数字 ， 
转移 到 多 一 个 空格 的 状态 。 


搜索 算法 有 很 多 种 可 能 的 方式 经 历 这 些 状态 ， 而 实际 上 决定 搜索 算 
法 应 该 如 何 做 到 这 一 点 的 正 是 我 们 人 类 一 一 计算 机 程序 员 。 我 们 可 以 对 
计算 机 进行 编程 ， 尝 试用 所 有 可 能 的 数字 填充 第 一 个 空位 (九宫 格 左 上 
角 的 空格 ) ， 然 后 考虑 这 9 种 新 状态 。 对 于 9 种 状态 中 的 每 一 种 ， 程 序 选 
择 1 到 9 中 的 一 个 数字 填 入 下 一 个 空位 ， 以 此 类 推 。 一 旦 算法 填 完 了 45 个 
缺失 的 数字 ， 就 可 以 检 训 九宫 格 配置 是 否 合法 。 如 宋 不 合法 ， 它 束 要 回 
去 修改 之 前 设置 的 茶 个 数字 ， 然 后 继续 前 进 ， 它 不 断 重 复 这 个 过 程 ， 直 
到 找到 一 个 有 效 的 组 合 。 








你 可 以 将 这 些 状态 看 作 以 树 形 结构 连接 的 ， 如 果 搜 索 算 法 可 以 通过 
填 入 《或 删除 ) 一 个 数字 在 两 个 状态 之 间 移 动 ， 那 么 这 两 个 状态 就 是 彼 
此 连接 的 。 我 在 图 14.2 中 展示 了 这 样 一 个 搜索 树 ， 只 是 我 对 搜索 树 进 行 
本 简化， 用 2x2 网 格 代 丛 了 9x9 网 格 ， 因 此 填 入 网 格 的 数字 只 有 1 到 3， 而 
非 1 到 9。 这 标 搜 索 树 底部 有 81 种 不 同 的 状态 ， 然 而 图 太 小 ， 你 无 法 看 到 
更 多 的 细节 ， 因 此 我 还 在 图 14.3 中 展示 了 搜索 树 放大 后 的 子 集 。 
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图 14. 2 寻找 把 数字 1、2、3 填 入 2X2 网 格 的 所 有 方法 的 搜索 树 。 随 着 树 的 层次 的 深 

入 ， 要 搜索 的 状态 数量 迅速 增加 ， 树 的 底部 有 34=81 种 状态 。 一 个 有 45 个 空位 的 数 独 
九宫 格 在 树 的 底部 有 945 种 状态 





\ 


请 注意 ， 搜 索 这 样 的 树 的 计算 机 算法 不 需要 做 任何 “智能 ”的 决定 。 
它 只 需要 在 它 沿 着 树 癌 下 搜索 的 过 程 中 保持 一 致 。 在 树 的 任意 层次 上 ， 
计算 机 都 只 是 从 1 开始 把 尚未 尝试 过 的 下 一 个 数字 填 入 下 一 个 空位 ， 然 
后 移动 到 那个 状态 ， 重 复 相 同 的 过 程 来 填写 剩余 的 空位 。 在 任意 层次 
上 ， 如 果 它 把 数字 1 尝试 填 入 了 下 一 个 空位 ， 然 后 在 剩余 的 空位 尝试 了 











所 有 可 能 的 数字 组 合 都 不 成 功 ， 那 么 它 就 把 1 蔡 换 为 2， 然 后 再 次 尝试 镜 
余 空位 的 所 有 组 合 ， 以 此 类 推 。 在 尝试 这 些 组 合 时 ， 它 实际 上 列举 了 用 
数字 1 到 9 填写 45 个 空位 的 所 有 可 能 方法 ， 直 到 找到 一 种 可 行 的 方法 。 


我 想 重 申 我 已 经 提 到 的 两 点 。 首 先 ， 算 法 如 何 经 历 这 些 状态 取决 于 
程序 员 。 其 次 ， 如 图 14.2 和 图 14.3 所 示 的 搜索 树 为 计算 机 提供 了 一 种 有 
序 的 方法 来 访问 每 个 状态 。 像 这 样 的 算法 无 权 自 主 决定 访问 哪个 状态 。 
计算 机 搜索 这 些 状态 时 遵循 着 简单 的 、 规 定性 的 算法 ， 这 正 是 一 台 手 摇 
曲柄 驱动 的 木 制 机 器 所 能 做 的 事情 。 


| | 
Ta 
1 a 3 
第 一 个 空位 
HE 2| | 3| | 
EN | | am 





第 二 个 空位 
™ si 
LLI LIS Li 








—_ um s i 
第 四 个 空位 
= ya 
第 四 个 空 人 FIERE 





3/11 [312] 


图 14. 3 图 14.2 中 搜索 树 的 一 个 子 集 ， 它 仅 显 示 搜 索 树 中 一 些 特定 的 状态 。 在 树 的 每 
个 层次 ， 和 工法 选择 下 一 个 空位 并 尝试 用 数字 1 到 3 中 的 每 一 个 填 入 它 《以 粗 体 显 
T) 。 算 法 使 用 其 中 一 个 数字 填 入 这 个 空位 ， 然 后 深入 下 一 个 层次 ， 尝 试 填 写 下 一 
个 数字 


1. Will Shortz, "Wayne Gould,” Time Magazine,May8,2006. 


树 的 大 小 


不 幸 的 是 ， 像 这 样 的 亚 力 方法 同样 不 切实 际 ， 因 为 这 需要 计算 机 考 
虑 指数 级 的 状态 数量 。 正 如 我 在 第 9 章 和 第 10 章 中 讨论 神经 网 络 时 一 
样 ， 我 所 说 的 “指数 ”是 数学 意义 上 的 : 在 数 独 搜索 树 中 ， 我 们 每 深入 一 
层 ， 状 态 数量 就 是 之 前 的 9 倍 。 如 图 14.4 所 示 ， 对 于 只 有 两 层 深 度 的 
树 ， 它 有 81 种 状态 。 如 果树 有 45 层 深 ， 它 的 状态 数 大 约 是 1 后 面 跟 着 43 
个 0。 这 个 状态 数 太 大 了 ， 即 便 我 们 有 一 大 和 群 人 去 摇 木 制 机 器 的 曲柄 ， 
也 无 法 在 合理 的 时 间 内 完成 评估 ， 更 不 用 说 大 型 计算 机 集群 了 。 




















但 我 们 无 须 列举 所 有 可 能 的 状态 来 找到 解决 方案 ， 这 对 我 们 有 帮助 
吗 ? 例如 ， 对 于 前 面 看 到 的 数 独 方 阵 ， 我 们 只 需要 尝试 其 中 的 36%， 束 
能 找到 有 效 的 答案 。 不 幸 的 是 ，1043 的 36% 是 1042.6， 这 个 数字 仍然 大 
得 令 人 难以 置信 。 


我 们 可 以 通过 “ 修 筋 ?搜索 树 的 分 文 来 解决 这 个 问题 ， 如 果 我 们 知道 
某 个 分 文 永 远 不 会 产生 有 效 的 数 独 答 案 ， 那 么 就 航 短 这 个 分 文 上 的 搜 
索 。 因 此 ， 当 试图 找 出 将 哪个 数字 填 入 空位 时 ， 我 们 仍然 会 考虑 从 1 到 9 
的 每 个 数字 ， 但 只 有 在 选择 这 个 数字 会 带 来 有 效 的 数 独 布局 时 ， 我 们 才 
会 进入 另 一 个 状态 。 我 在 图 14.5 中 展示 了 这 个 算法 的 搜索 树 。 
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图 14.4 只 有 两 个 层次 的 数 独 搜索 树 的 状态 数 为 9X9=81。 因 为 搜索 树 每 加 深 一 层 ， 
状态 数 就 是 之 前 的 9 倍 ， 所 以 我 们 必须 使 用 修剪 算法 来 缩小 搜索 范围 
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图 14.5 “iH” BMRA, TARER ER P OEC. KIAD XE 
短 了 ， 因 为 它们 会 导致 数 独 九宫 格 无 法 得 到 有 效 的 数 独 布局 


图 14.5 几 乎 不 是 一 棵 “ 树 ”， 它 更 像 是 一 道 “ 探 测 光 束 ”! 如 你 所 见 ， 

它 有 几 个 错误 的 开端 ， 但 是 算法 不 需要 在 每 个 层次 上 生出 太 多 分 支 。 修 
六 后 的 搜索 树 每 一 层 通 第 只 有 一 个 分 文 ， 而 不 是 9 个 。 如 琳 我 们 洱 运 的 
话 ， 对 于 树 中 的 大 多 数 层次 ， 我 们 可 能 都 只 检查 9 个 九 定格， 一旦 我 们 
发 现 它们 是 非法 的 ， 束 可 以 放弃 它们 。 这 会 在 大 多 数 层次 上 消除 9 个 分 
文中 的 8 个 ， 只 剩 下 1 个 分 文 ， 然 后 进入 下 一 个 层次 。 由 此 ， 我 们 只 需要 
评估 大 约 9x45 个 九宫 格 ， 即 区 区 405 个 状态 而 已 。 这 个 数字 足够 小 ， 你 
甚至 可 以 在 20 世 纪 70 年 代 的 计算 机 上 快速 运行 这 个 搜索 算法 。 














分 文 因子 


搜索 树 在 每 个 层次 上 的 增长 量 有 时 被 称 为 分 文 因 于 或 分 文 比率 。 第 
一 个 未 修 筋 的 数 独 搜索 树 的 分 文 因子 是 9， 修 草 后 的 搜索 树 的 分 文 因 子 
接近 1。 分 文 因子 因数 独 九 宫 格 的 初始 布局 而 寞 ， 而 人 类 解数 独 题 目的 
难度 在 很 大 程度 上 取决 于 这 个 题目 的 分 文 因 了 于 。 当 韦 恩 : 古 尔 德 发 明 程 
序 来 创建 数 独 九 宫 格 时 ， 他 肯定 意识 到 了 这 一 上 把 : 数 独 游戏 必须 在 分 文 
因子 上 取得 适当 的 平衡 。 它 不 能 低 到 让 人 感觉 机 械 ， 也 不 能 高 到 让 人 感 


党 泄 气 。 


游戏 中 的 不 确定 性 


从 人 工 镶 能 研究 的 角度 来 看 ， 像 数 独 这 样 的 单 人 游戏 往往 不 那么 有 
趣 ， 因 为 它 没有 不 确定 性 : 从 第 一 个 回合 到 最 后 ， 玩 家 的 搜索 路 径 和 可 
以 采取 的 行动 都 是 明确 定义 的 。 让 游戏 变 得 更 有 趣 的 是 不 确定 性 。 当 涉 
及 一 定 的 随机 性 时 ， 不 确定 性 就 会 显现 出 来 ， 例 如 任何 撕 骨 子 的 游戏 或 
者 有 多 个 玩家 的 游戏 ， 国 际 象 棋 也 具备 这 样 的 不 确定 性 。 


为 了 了 解 当 存在 一 定 不 确定 性 时 游戏 玩法 的 变化 ， 让 我 们 来 看 一 个 
简单 的 游戏 ， 我 称 之 为 “你 选 这 个 ， 然 后 撕 人 硬币”， 如 图 14.6 所 示 。 
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图 14.6 
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抱歉 ， 这 个 游戏 对 你 而 言 并 不 怎么 有 趣 ) o TEIN Ta KA, TES 
你 的 第 一 步 策略 是 什么 。 





为 了 推理 这 个 游戏 ， 你 或 许 会 计算 上 面 两 个 结果 的 平均 值 ， 然 后 与 
下 面 两 个 结果 的 平均 值 进行 比较 ， 根 据 平 均 数 决定 选择 上 面 的 分 文 更 
好 ， 因 为 你 付 给 我 的 平均 报酬 更 少 。 如 果 厌 恶 风险， 你 可 能 有 不 同 的 推 
H: 你 会 注意 到 10 美 元 是 可 能 出 现 的 最 糟糕 的 结 末 ， 于 是 选择 下 面 的 分 
文 来 避免 这 种 结果 。 无 论 你 采取 哪 种 集 略 ， 重 要 心得 都 是 ， 你 通过 查看 
最 终 的 钱 数 ， 回 到 起 始 位 置 做 决定 。 








双人 游戏 同样 有 不 确定 性 ， 但 从 某 种 意义 上 讲 ， 这 种 不 确定 性 对 两 
位 玩家 而 言 都 很 小 ， 因 为 另 一 位 玩家 的 选择 在 茶 种 程度 上 是 可 以 预测 
的 。 请 考虑 图 14.7 中 的 游戏 ， 我 将 其 称 为 “你 选 这 个 ， 然 后 我 选 下 一 
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你 选 这 个 ”我 选 下 一 步 你 付 给 我 的 钱 
图 14. 7 


和 先前 的 游戏 一 样 ， 在 这 个 游戏 中 ， 你 先 选 择 癌 上 或 者 向 下 ， 然 后 
我 会 在 下 一 步 选 择 是 向 上 或 者 向 下 。 在 我 们 各 自 做 出 选择 之 后 ， 你 依然 
像 先 前 一 样 按照 最 终 的 金额 向 我 付 钱 。 再 花 点 时 间 看 看 图 14.7， 在 继续 
阅读 下 文 之 前 做 出 你 的 决定 。 








这 个 游戏 对 你 而 言 依然 不 怎么 有 趣 ， 因 为 总 古 我 霹 。 但 你 预测 结果 
的 能 力 确 实 更 强 了 ， 上 所 以 你 的 选择 更 容易 。 你 知 着 我 总 是 会 选择 最 大 的 
数字 一 一 10 美 元 或 6 美元 ， 所 以 你 会 选择 癌 下 的 那个 分 支 ， 因 为 这 样 你 
只 需要 付 给 我 6 美元 。 束 像 先前 的 “你 选 这 个 ， 然 后 据 硬 币 ” 游 戏 一 样 ， 
你 从 最 后 开始 ， 然 后 回 前 回 滴 ， 决 定 采 取 哪 种 行动 。 








在 像 国 际 象棋 这 样 的 游戏 中 ， 玩 家 需要 轮流 走 棋 很 多 回合 ， 你 会 用 
同样 的 方法 在 游戏 中 找到 最 佳 集 略 ， 只 是 你 必须 在 游戏 过 程 中 预测 更 多 
的 决策 结果 。 搜 索 树 会 在 几 步 棋 之 内 出 现 大 量 分 文 ， 如 图 14.8 所 示 ， 其 
分 文 甚至 比 图 中 的 还 要 多 。 在 这 张 图 中 ， 最 后 的 灰 点 代表 你 启 的 结果 ， 
折 点 代表 我 恬 的 结果 。 要 想 知道 在 轮 到 你 的 时 候 你 应 该 采取 什么 行动 ， 
你 会 再 次 从 最 后 开始 推理 ， 然 后 同 前 回调 。 在 每 一 个 层次 上 ， 你 要 么 预 
测 我 采取 什么 行动 获胜 机 会 最 大 ， 要 么 为 自己 选择 一 种 能 最 大 限度 地 提 
局 你 获胜 机 会 的 行动 。 在 这 个 游戏 中 ， 只 要 你 做 出 正确 的 选择 ， 你 就 有 
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图 14.8 多 层 搜索 树 ， 表 示 双 人 游戏 中 的 选择 。 树 的 每 个 层次 代表 一 名 玩家 在 两 个 动 
作 之 间 的 选择 。 最 后 的 灰 点 代表 你 赢 的 结果 ， 而 白 点 代表 我 赢 的 结 


如 琳 我 们 想 要 编程 计算 机 来 玩 这 个 游戏 ， 我 们 会 像 玩 数 独 游戏 一 样 
使 用 搜索 算法 ， 但 是 我 们 会 编写 程序 来 预测 你 和 我 会 在 搜索 树 的 每 一 层 
上 采取 哪些 行动 。 程 序 必须 从 搜索 树 的 深 处 开始 。 当 程序 在 搜索 过 程 中 
触及 游戏 结尾 时 ， 它 就 会 癌 前 回溯 : 它 会 查看 我 在 最 后 一 步 所 能 采取 的 
所 有 行动 ， 预 计 我 只 会 做 出 允许 我 获胜 的 行动 (如 果 这 样 的 行动 存 


在 ) ， 并 假设 我 会 选择 它 。 一 旦 完成 ， 算 法 就 可 以 名 略 树 的 最 后 一 层 ， 

因为 它 知 道 我 行动 的 结果 。 在 倒数 第 二 个 层次 上 ， 算 法 会 预测 你 会 选择 
哪 一 步 。 你 会 选择 一 个 保证 你 会 顾 的 行动 《如 果 这 样 的 行动 存在 ) 。 一 
旦 程序 知道 了 你 会 采取 哪 种 行动 ， 它 就 能 知道 谁 会 从 中 胜出 ， 并 且 可 以 
忽略 搜索 树 下 面 的 所 有 层次 。 于 是 程序 会 继续 在 树 中 辐 前 回溯 ， 预 测 我 
们 三 人 分 别 会 采取 什么 行动 ， 直 到 到 达 搜 索 树 的 开端 ， 即 游戏 的 当前 局 
面 。 一 旦 到 达 起 点 ， 程 序 就 会 告诉 你 应 该 采取 什么 行动 来 确保 你 获胜 。 
我 们 可 以 说 ， 这 个 算法 假定 每 个 玩家 部 是 理性 的 ， 也 就 是 说 ， 每 个 人 痢 
会 为 了 目 己 的 最 高 利益 而 行动 ， 并 且 会 提前 思考 。 当 我 们 搜索 整 棵 树 

时 ， 可 以 假设 每 个 玩家 都 是 理性 的 。 正 如 你 从 树 的 末尾 开始 计算 每 个 玩 
家 的 最 佳 行动 一 样 ， 程 序 也 会 以 可 预测 的 方式 做 同样 的 事情 。 


当然 ， 上 面 的 搜索 树 比 国际 象棋 的 搜索 树 简 单 得 多 。 在 上 面 的 树 
中 ， 分 支 因子 是 2， 游 戏 有 4 次 行动 (被 称 为 “ 层 ”) 。 在 国际 象棋 大 师 的 
对 局 中 ， 搜 索 树 有 30 到 40 个 分 文 因子 ， 每 局 棋 平 均 40 步 。 三 这 会 导致 搜 
索 树 太 大 ， 计 算 机 无 法 在 不 进行 大 量 修 筋 的 情况 下 完成 搜索 。 三 我 们 需 
要 搜索 的 状态 数 会 轻易 超过 1 后 面 跟着 59 个 0 这 样 的 数字 。 























我 们 是 否 能 用 足够 快 的 计算 机 来 解决 这 个 问题 ? 不 能 。 当 我 们 进入 
搜索 树 时 ， 状 态 的 指数 级 增长 速度 是 一 个 超越 技术 能 力 的 问题 : 评估 所 
有 这 些 状态 的 代价 总 是 高 得 令 人 望而却步 。 即 使 我 们 可 以 构建 一 台 计 算 
机 ， 它 可 以 在 合理 的 时 间 内 《比如 说 两 分 钟 ) 评估 40 层 深度 的 所 有 棋局 
状态 ， 计 算 机 再 癌 下 深入 两 层 也 会 陷入 停顿 ， 此 处 有 40x40=1600 倍 的 状 
态 要 评估 ， 所 以 计算 机 需要 超过 两 天 的 时 间 来 处 理 它 的 状态 。 而 且 这 还 
是 用 我 们 修剪 数 独 搜索 树 的 方法 修剪 过 的 树 : 每 个 回合 可 选 的 30 到 40 种 
着 法 都 是 合法 的 。 因 此 ， 如 果 我 们 要 用 计算 机 解决 国际 象棋 问题 ， 就 需 
要 另 一 种 方法 修剪 这 棵 树 。 
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克基 德 香 农 的 青铜 半 吴 像 。 香 农 是 一 位 数学 家 ， 以 其 在 信息 论 领域 的 
工作 而 于 名 ， 从 字面 意义 上 讲 ， 信 息 论 提供 了 一 种 优雅 的 方法 来 衡量 消 
prp PEEL AY e RE 








香农 关于 信息 的 观 扣 主要 讨论 了 一 条 消 明 的 特殊 程度 。 如 末 我 告诉 
你 我 的 猫 会 噶 吐 叫 ， 那 么 我 并 没有 给 你 太 多 的 信息 ， 因 为 你 知道 大 多 数 
猫 都 会 发 出 这 种 声 首 。 然 而 ， 如 末 我 告诉 你 我 的 猫 会 央 叫 ， 那 么 这 束 是 
更 高 级 的 信息 ， 因 为 大 多 数 猫 不 会 员 叫 。 如 果 我 告诉 你 10 个 像 这 样 的 不 
同 的 (不 相关 的 ) 事实 ， 那 么 我 束 给 了 你 10 倍 的 信息 。 





香农 把 这 种 观点 编码 成 一 个 推理 信息 的 框架 。 他 通过 将 不 确定 性 的 
概念 形式 化 来 实现 这 一 点 : 信息 就 是 你 通过 消除 不 确定 性 而 获得 的 东 
西 。 香 农 的 思想 引出 了 一 个 广泛 而 美妙 的 数学 分 支 ， 它 通常 被 称 为 信息 
论 。 信 息 论 的 思想 已 经 被 用 来 帮助 我 们 理解 各 种 各 样 的 事物 ， 例 如 我 们 
可 以 在 电子 信息 中 发 送 多 少 信息 的 理论 限制 。 这 与 “ 沃 森 ” 的 单词 重 厨 评 
分 器 所 使 用 的 思想 相同 ， 评 分 器 根据 单词 传达 的 信息 量 对 单词 进行 加 
权 ， 像 “蝎子 ”和 “但 维 奇 ”这 样 的 单词 比 “ 几 乎 *? 和 “一 个 ”传达 的 信息 更 
多 。 


香农 在 信息 论 方面 的 工作 对 于 机 器 学 习 领 域 是 极其 重要 的 ， 但 他 在 
1949 年 撰写 的 一 篇 关于 如 何 创建 能 下 棋 的 计算 机 程序 的 学 术 论 文 鲜 为 人 
知 。 在 计算 机 成 为 家 姓 用 品 的 几 年 前 ， 香 农 就 如 何 编写 在 当下 人 人 工 智 能 
领域 已 经 司空 见 惯 的 下 棋 算 法 提出 了 一 些 简单 但 深思 熟 虑 的 建议 。 他 的 
核心 建议 之 一 是 关于 评价 函数 的 。 


























评价 函数 


评价 函数 是 一 种 可 以 应 用 于 游戏 状态 的 测试 ， 用 来 预测 在 每 个 玩家 
理性 决策 的 前 提 下 谁 会 获胜 。 图 14.8 中 搜索 树 完美 的 评价 函数 会 告诉 你 
从 每 个 游戏 状态 开始 谁 会 获胜 。 你 可 以 在 图 14.9 中 看 到 这 个 游戏 的 完美 
的 评价 函数 是 什么 样子 的 ， 在 图 中 ， 我 根据 最 终 的 获胜 者 对 每 个 状态 进 
行 了 着 色 。 使 用 这 种 评价 函数 的 计算 机 算法 不 需要 一 直 搜索 到 树 的 末尾 
才能 确定 选择 哪 一 步 ， 它 只 需 搜索 一 到 了 两 层 深 度 即 可 奉 看 评价 函数 以 确 
定 该 选择 哪 一 步 。 





| | | © 
| I | 
| I | O 
| I | 
| | | | O = 我 局 
| | 1 E 
A 1 | C 9n 
I | I I 
| I I O 
| | I 
| | | © 
| | | O 
Hf tae 
| I | © 
| | I 
| | | Q 
| | | 
| | | | O 
I | | 
| | | I O 
| | | E d 
| | I i © 
| . | | 
I I 入 © 
I I I O 
| | = | 
| | | Q 
| | | L 
你 选 这 个 我 选 这 个 你 选 这 个 我 选 这 个 O 


图 14.9 一 棵 多 层 搜索 树 ， 其 中 每 个 状态 都 用 评价 函数 的 结果 进行 了 着 色 。 这 个 评价 
d A eX: 它 描述 了 在 每 个 玩家 完美 发 挥 的 情况 下 ， 在 每 个 状态 下 哪个 玩家 将 
会 赢得 游戏 。 在 实践 中 ， 大 多 数 评价 函数 都 是 近似 的 


我 们 通 闸 不 可 能 创建 出 完美 的 评价 函数 ， 因 此 必须 使 用 近似 的 评价 
函数 来 代替 。 如 果 下 过 国际 象棋 ， 你 可 能 会 用 近似 的 评价 函数 来 决定 你 
的 走 法 ， 甚 至 无 须 思 考 就 给 棋盘 上 的 每 个 棋子 赋予 了 粗略 的 价值 ， 旦 后 
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言 比 他 的 马 价值 更 高 ， 以 此 类 推 。 


正如 香农 解释 的 那样 ， 计 算 机 对 国际 象棋 的 评价 函数 可 能 会 为 这 些 
棋子 分 配 明确 的 权重 : 星 后 的 价值 是 9， 车 是 5， 象 是 3， 马 是 3， 兵 是 
1; 而 一 个 玩家 在 棋盘 上 拥有 的 全 部 棋子 的 价值 就 是 这 些 棋子 的 价值 总 
Mo 三 我 在 这 里 列 出 的 数字 是 随意 的 ， 很 可 能 并 不 正确 ， 但 这 些 数 字 确 
实 捕捉 了 我 们 的 一 些 直 觉 。 如 果 你 有 机 会 吃 挥 对 手 的 旦 后 ， 但 在 此 过 程 
中 需要 牺牲 一 个 象 ， 那 么 这 仍然 是 一 步 好 棋 。 如 果 你 能 在 不 损失 任何 棋 
子 的 情况 下 吃 挥 对 手 的 旦 后 ， 那 就 更 好 了 。 为 了 将 其 形式 化 为 更 严格 的 
评价 函数 ， 你 可 以 用 你 拥有 的 每 种 棋子 数量 的 加 权 之 和 减 去 对 手 棋 子 的 
加 权 之 和 ， 如 下 所 示 : 三 











(100K+9Q+5R+3B+3N+1P) 


- (100K9*909*5R9*3B9*3N9*1P9) 





如 末 你 使 用 这 个 公式 《顺便 说 一 下 ， 这 是 分 类 器 的 一 个 例子 〉 作 为 
评价 函数 ， 那 么 它 将 帮助 你 根据 棋盘 上 每 种 棋子 的 数量 来 预测 谁 将 说 得 
比赛 。 


这 只 是 评价 函数 的 一 个 简单 示例 ， 但 是 如 果 添 加 足够 多 的 特征 ， 这 
样 的 评价 函数 就 会 非常 强大 。“ 深 蓝 * 是 IBM 开 发 的 一 个 强大 的 国际 象棋 
系统 ， 它 也 使 用 了 评价 函数 ;我 们 在 评价 函数 中 使 用 了 12 个 特征 ， 

而 “深蓝 ”使 用 了 超过 8000 个 特征 ! = 


这 些 额外 的 特征 可 能 是 什么 ? 其 中 很 多 孝 非 第 深奥 ， 但 它们 大 人 致 可 
以 分 为 两 类 。 一 类 是 子 力 特征 ， 即 描述 棋盘 上 有 哪些 棋子 的 特征 ， 与 上 
文中 的 特征 类 似 ， 男 一 类 是 位 置 特征 ， 即 描述 这 些 棋子 在 棋盘 上 位 置 的 
特征 。 例 如 ， 如 果 你 的 一 个 兵 靠 近 对 手 棋盘 一 侧 ， 它 的 价值 就 更 大 ， 因 
为 它 更 有 可 能 变 成 星 后 。 的 确 ， 由 于 这 个 原因 ， 人 至 少 有 一 个 版 本 的 “ 深 

















蓝 ” 倾 向 于 把 兵 推 进 到 棋盘 的 男 一 边 。 位 置 特征 同样 是 计算 机 下 国际 象 
棋 所 必需 的 。 这 一 点 在 “深蓝 ”与 当时 的 国际 象棋 冠军 加 里 : 卡 斯 由 罗 夫 
的 一 盘 对 局 中 表现 得 很 明显 。 三 


卡 斯 由 罗 夫 是 有 史 以 来 最 伟大 的 棋 手 之 一 。 他 激情 四 射 ， 精 力 充 
沛 ， 把 下 棋 描 述 为 “控制 混沌 >。 三 1988 年 ， 当 被 问 及 计算 机 能 否 在 2000 
年 击败 人 类 特级 大 师 时 ， 卡 斯 由 罗 夫 的 回答 很 简单 : “ 绝 不 可 能 ， 如 果 
哪 位 大 师 在 和 计算 机 下 棋 时 遇 到 困难 ， 我 很 乐意 提供 我 的 建议 。” 三 在 
与 “深蓝 ”的 一 盘 对 局 中 ， 卡 斯 由 罗 夫 取得 了 明显 的 优势 。 这 人 台 可 怜 的 计 
算 机 知道 自己 大 势 已 去 的 时 候 已 经 太 晚 : “深蓝 ” 的 评价 函数 过 于 看 重子 
力 优 势 ， 而 低估 了 卡 斯 帕 罗 夫 的 棋子 位 置 优势 。 三 


如 何在 实践 中 使 用 评价 函数 ? 一 种 方法 是 在 搜索 树 中 搜索 到 固定 的 
深度 ， 在 该 深度 对 每 个 游戏 状态 执行 评价 函数 ， 然 后 将 评价 函数 的 结果 
视 为 游戏 的 结果 ， 如 图 14.10 所 示 。 在 国际 象棋 这 样 的 游戏 中 ， 你 无 须 
搜索 40 层 深度 ， 可 能 只 需要 搜索 6 到 12 层 深度 ， 然 后 束 可 以 使 用 评价 函 
数 来 确定 哪些 状态 让 你 最 有 希望 获胜 。 虽 然 你 不 可 能 只 走 6 步 就 下 完 一 
盘 横 ， 但 是 希望 在 于 ， 你 能 更 准确 地 知道 谁 在 这 个 深度 占 优势 。 




















评价 函数 也 可 用 于 以 其 他 方式 修 辟 搜索 树 。 其 中 一 种 是 使 用 一 个 
叫 “alpha-beta 剪 枝 ” 的 方法 。 在 alpha-beta 剪 枝 中 ， 你 可 以 根据 目前 在 搜 
索 树 中 所 观察 到 的 情况 进行 战略 性 修剪 。 假 设 你 在 和 我 下 棋 的 时 候 正在 
思考 下 一 步 棋 该 怎么 走 。 在 研究 了 你 可 能 走 的 第 一 步 棋 〈 称 为 A) 后 ， 
你 根据 评价 函数 确定 这 步 棋 很 好 ， 然 后 考虑 我 对 A 这 步 棋 的 所 有 应 对 着 
法 ， 再 考虑 你 的 应 对 着 法 ， 以 此 类 推 。 
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你 选 这 个 ” 我 选 这 个 截至 此 处 ， 执 行 评价 函数 


图 14. 10 在 双人 游戏 中 搜索 到 固定 深度 后 使 用 评价 函数 








此 时 ， 你 可 以 停止 搜索 ， 但 你 意识 到 你 可 能 会 找到 一 步 更 好 的 棋 ， 
我 们 称 之 为 着 法 B 或 着 法 C。 所 以 你 也 会 考虑 这 些 着 法 。 当 考虑 下 一 步 
(着 法 B)〉 的 时 候 ， 你 立即 注意 到 我 有 一 步 可 以 让 我 说 下 棋局 的 应 对 看 
法 。 你 知道 我 总 是 会 为 目 己 选择 最 佳 着 法 ， 所 以 再 考虑 着 法 B 就 没 必 要 
了 。 我 不 会 选择 任何 对 我 而 言 更 糟糕 的 应 对 着 法 来 应 对 着 法 B。 因 此 ， 





READER IEAB, MAAAC. Maiizealpha-beta By Bc IT] AS 
质 : 当 你 知道 搜索 树 上 的 某 个 分 文 不 会 带 来 比 你 已 经 找到 的 分 文 更 好 的 
结果 时 ， 就 前 短 搜索 。 





alpha-beta 蚊 枝 不 仅 限 于 搜索 树 的 顶层 ， 它 可 以 应 用 于 树 的 任何 层 
次 。 它 的 效率 取决 于 你 在 搜索 树 中 的 搜索 顺序 ， 但 即使 你 没有 对 搜索 进 
行 优先 排序 ， 它 依然 非常 有 效 。 这 也 是 IBM 的 国际 象棋 计算 机 < 深蓝 ”使 
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7. 在 这 局 对 弈 中 ,“ 深 蓝 ? 也 使 用 了 位 置 特征 ， 但 它 认 为 自己 占据 明显 的 子 力 优势 ， 却 仍 
然 输 给 了 卡 斯 帕 罗 夫 。Hsu,Behind Deep Blue,138. 
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IBM 的 计算 机 “深蓝 ”证 明了 国际 象棋 世界 冠军 加 里 : 卡 斯 帕 罗 夫 在 
1988 年 的 预测 是 错误 的 ， 他 预测 ， 到 2000 年 ， 没 有 一 台 计 算 机 能 打败 特 
级 大 师 。 在 他 做 出 预测 不 到 一 年 的 时 间 里 ， 来 自 卡 内 基 - 梅 隆 大 学 的 一 
支 鲜 为 人 知 的 研究 生 团队 建造 了 一 台 计 算 机 ， 战 胜 了 国际 象棋 特级 大 
师 ， 这 是 有 史 以 来 第 一 次 。 三 随 着 他 们 的 计算 机 及 其 后 代 机 在 接 下 来 的 
10 年 里 逐渐 进步 ， 计 算 机 变 得 越 来 越 有 竞争 力 ， 一 次 次 地 战胜 特级 大 
师 。 














宋 蓝 ” 便 起 源 于 这 群 研究 生 ， 他 们 最 初 主要 是 出 于 好 玩 才 开始 研究 
a 他 们 的 系统 主要 基于 该 项 目的 创始 成 员 许 峰 雄 
(Feng- ding Hsu) 设计 的 定制 硬件 。 使 用 硬件 下 国际 象棋 在 当时 并 不 
少见 ， 这 些 下 棋 的 机 器 有 时 可 能 有 办 公 室 的 小 冰箱 那么 大 。 三 但 是 许 峰 
ERIL 用 人 硬件 实现 深蓝 ”的 功能 与 单纯 用 软件 实现 的 相同 算法 相 比 ， 
di 三 “深蓝 ?在 很 大 程度 上 依赖 于 硬件 赋 
予 的 快速 搜索 其 搜索 树 的 能 力 。 深蓝 * 分 布 在 30 台 不 同 的 计算 机 上 ， 它 
ee E 


但 “ 深 赣 ?背后 的 团队 发 现 ， 仅 用 评价 函数 进行 一 定 深度 的 亦 力 搜索 
是 不 够 的 。 sed 与 搜索 到 固定 深度 的 搜索 算法 相 比 ， 国 际 象棋 大 
师 预 测 的 棋 步 更 深 。“ 深 荔 * 团 队 确 实 使 用 了 上 共有 有 限 深度 树 的 评价 函 
数 ， a Dt 1E VAP UE BERT TI Wb B5] BY SC ISS A GS ZR BO SE 
怀疑 态度 ， 至 少 在 他 们 的 硬件 中 是 这 样 的 。 许 峰 雄 和 他 的 团队 没有 使 用 
TIW B5) 71 SNE 85 ATT Se Hes 种 不 同 的 方法 来 处 理 高 分 
文 因 于， 一 种 叫 “ 单 步 延 伸 ” 的 方法 。 


与 选择 性 地 切断 茶 些 搜索 路 径 的 筋 权 方法 不 同 ， 单 步 延 伸 选 择 性 地 


延伸 茶 些 搜索 路 径 。 例 如 ， 如 采 你 把 你 的 棋子 走 到 了 威胁 我 的 国王 的 位 
置 ， 我 就 会 采取 一 些 行 动 来 保护 我 的 国王 。 这 类 看 法 的 特点 是 :它们 显 
然 是 我 能 选择 的 最 佳肴 法 ， 有 时 或 许 是 我 能 选择 的 唯一 着 法 ， 当 * 深 
更 ” 发 现 了 这 些 着 法 时 ， 它 会 有 选择 性 地 朝 这 个 方向 延伸 搜索 ， 这 个 延 
伸 方 癌 的 分 文 因 于 接近 1。 三 


与 DeepMind 设 计 的 可 以 玩 许 多 不 同 游戏 的 雅 达 利 游戏 智能 体 不 
同 ，“ 深 蓝 ” 是 专 为 下 国际 象棋 设计 的 。 虽 然 团 队 确 实 使 用 了 一 些 数据 驱 
动 的 调整 来 选择 其 评价 函数 中 的 权重 ,但 是 “深蓝 ”的 评价 函数 中 的 大 多 
数 特征 都 是 人 工 选 择 和 创建 的 ， 这 与 本 书 中 的 大 多 数 统计 机 器 形成 了 钙 
明 对 比 。“ 深 复 ? 还 使 用 “开局 库 ? 来 选择 开局 时 的 最 佳 策略 着 法 ， 以 
及 “残局 "数据库 来 选择 棋局 接近 终局 时 的 厦 法 。 三 
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Hsu,Behind Deep Blue,52—56. 
Hsu,Behind Deep Blue,85., 54. 
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Campbell et al., Deep Blue." 


加 入 IBM 





当 许 峰 雄 开 始 开发 最 终 发 展 成 为 "深蓝 ”的 国际 象棋 程序 时 ， 他 招募 
了 他 的 研究 生 同 学 来 帮忙 。 三 项 目 进行 了 几 年 之 后 ，IBM 得 知 了 这 些 学 
生 在 开发 国际 象棋 程序 方面 的 工作 。 有 一 种 说 法 是 ， 这 个 想法 的 种 子 是 
一 位 副 总 裁 在 男 厕所 里 的 一 次 谈话 中 播 下 的 。 当 时 的 对 话 大 致 如 下 : 


朋友 : “超级 碗 广告 这 种 营销 太 昂 贵 了 ， 是 吧 ? ” 
副 总 裁 : “SRT.” 


WA: “ 哦 ， 顺 便 问 一 下 ， 你 听 说 过 卡 内 基 - 梅 隆 大 学 团队 的 国际 
象棋 计算 机 吗 ? 没有 ? 或 许 1BM 可 以 雇用 这 个 团队 ， 他 们 可 以 打败 世界 
上 最 好 的 棋 手 。 这 种 营销 方式 可 能 对 生意 有 好 处 ， 而 且 可 能 更 便宜 ， 对 
ny 这 


副 总 裁 : “有 趣 eeeeee » 


IBM 最 终 收 购 了 从 事 这 个 项 目的 卡 内 基 - 梅 隆 大 学 生 的 核心 团队 。 
这 些 学 生 在 加 入 IBM 时 为 自己 做 了 一 笔 鼎 具 吸 引力 的 交易 : 他 们 通过 谈 
判 获 得 了 构建 终极 国际 象棋 机 咒 ? 的 授权 。 他 们 要 求 目 己 有 独立 做 事 的 
灵活 性 ， 公 司 里 没有 像 采 伯 特 二 的 上 司 那 样 的 领导 对 他 们 发 号 施 令 。 
过 他 们 实现 了 自己 的 愿望 ， 同 时 也 获得 了 在 IBM 工 作 的 其 他 一 些 好 处 ， 
包括 使 他 们 能 够 构建 “深蓝 ”的 最 终 版 本 和 参加 比赛 的 雄厚 资金 ， 以 及 
IBM 的 营销 团队 帮助 他 们 集 划 同 加 里 : 卡 斯 幅 罗 夫 的 比赛 。 二 

















1997 年 ， 此 时 距离 加 里 : 卡 斯 帕 罗 夫 做 出 2000 年 之 前 没有 计算 机 可 
以 击败 特级 大 师 的 预测 还 不 到 10 年 ， 研 究 人 员 的 国际 象棋 计算 机 系列 终 
于 推出 了 “深蓝 ”的 最 终 版 本 。 在 一 场 6 局 的 比赛 中 ， 计 算 机 成 功 击败 了 


加 里 : 卡 斯 由 罗 夫 ， 这 是 卡 斯 由 罗 夫 职业 生涯 中 输 掉 的 第 一 场 比赛 。 许 
峰 雄 写 道 : 


是 的 ， 你 没 看 错 。 在 1997 年 的 重 赛 之 前 ， 卡 斯 由 罗 夫 在 职业 生涯 中 
从 未 输 过 一 场 比 赛 。 有些 人 担心 卡 斯 由 罗 夫 输 掉 比赛 会 生气 。1BM 团 队 
被 特别 要 要 求 在 闭幕 式 上 不 要 微笑 ， 尤 其 是 如 果 “ 深 蓝 ” 赢 得 比赛 的 话 。 


1. “深蓝 ”的 前 身 是 深思熟虑 ”(Deep Thought) 和 “* 心 片 测试 ”〈ChipTest) 。 我 模糊 
了 “深蓝 * 和 深思熟虑 ”的 各 个 版 本 之 间 的 区 别 ， 在 实践 中 ， 它 们 在 硬件 和 软件 上 都 有 所 不 
同 o 

2. Hsu,Behind Deep Blue,93. 





3. 采 伯 特 是 史 考 特 ' 亚 当 斯 (Scott Adams) 讽刺 职场 现实 的 漫画 和 图 书 系列 中 的 主人 
公 ， 采 伯 特 的 身边 总 是 有 陷害 他 的 上 司 。 一 一 译 者 注 


4. Hsu,Behind Deep Blue,93., 133. 














5. Hsu,Behind Deep Blue,93., 133. 


6. Hsu,Behind Deep Blue,93., 253-254. 


搜索 与 神经 网 络 


那么 ， 为 什么 我 们 不 使 用 像 搜索 算法 这 样 的 方法 来 玩 雅 达 利 游戏 
Ne? 我 们 可 以 设计 一 个 搜索 算法 来 玩 《 打 砖 块 》 或 《太空 入 侵 者 》 这 类 
游戏 吗 ? 虽然 我 不 愿 说 答案 是 断然 否定 的 ， 但 如 果 我 们 符 试 这 样 做 ， 束 
要 面临 一 些 挑 战 。 


在 国际 象棋 和 数 独 游戏 中 ， 状 态 是 显而易见 的 : 它们 描述 了 棋子 的 
位 置 或 九宫 格 中 的 数字 。 因 为 棋盘 上 的 位 置 和 游戏 规则 都 有 很 明确 的 定 
义 ， 所 以 很 容易 把 状态 以 及 状态 之 间 的 转换 编码 到 搜索 树 中 。 但 是 请 记 
住 ，DeepMind 想 要 一 个 可 以 玩 许 多 不 同 游戏 的 智能 体 。 目 前 我 们 还 不 
清楚 搜索 树 中 的 “状态 ”对 雅 达 利 游戏 而 言 应 该 是 什么 样子 。 雅 达 利 游戏 
的 搜索 树 中 的 状态 是 否 应 该 代表 屏幕 上 像素 的 独特 排列 ? 这 将 导致 我 们 
要 面 对 的 状态 远 远 多 于 国际 象棋 或 数 独 游戏 的 状态 。 更 大 的 问题 是 ， 当 
我 们 在 状态 空间 中 搜索 时 ， 我 们 不 知道 如 何 从 一 个 状态 移动 到 男 一 个 状 
态 。 如 果 我 们 连 状 态 如 何 相 互 连 接 都 不 知道 ， 那 么 搜索 算法 就 很 难 预测 
游戏 的 未 来 ! 


在 玩 游戏 时 ， 搜 索 算 法 的 作用 是 帮助 智能 体 从 当前 状态 找到 一 条 最 
有 可 能 获得 好 结果 的 状态 的 路 符 。 在 国际 象棋 中 ， 我 们 在 树 的 深 处 寻找 
评价 函数 具有 较 高 数值 的 状态 ， 然 后 我 们 采取 让 我 们 更 接近 那个 状态 的 
行动 。 














用 神经 网 络 进行 强化 学 习 ， 为 我 们 提供 了 一 种 不 同 的 方法 来 实现 相 
同 的 目标 。 在 玩 游戏 时 ， 强 化 学 习 的 作用 是 告诉 智能 体 哪些 动作 会 把 它 
移 同 有 未 来 奖励 的 状态 ， 让 智能 体 朝 这 些 状 态 移动 。 强 化 学 习 本 质 上 把 
问题 从 《可 能 更 难 的 ) 搜索 问题 转变 为 "爬山 ?问题 ， 从 而 让 它 可 以 一 步 
步 地 向 更 有 前 途 的 状态 移动 。 





AN IG LLL EET ETT AY. INE, PEE rie 3) “MRL E 
AN LUT, FAAP SE ALL, MARLA, DEEP SS IAN ANZSI So 
DeepMindfE (FEWE AVE PIE! Sax np. EBC 
有 充分 探索 地 形 来 找 出 更 大 山 丘 的 位 置 ， 于 是 被 困 在 了 一 座 矮 山上 。 三 
相反 ， 搜 索 算法 或 许可 以 搜索 到 更 广阔 的 区 域 ， 让 你 越过 那些 山谷 。 人 至 
少 在 理论 上 ， 我 们 对 游戏 树 的 搜索 越 深入 ， 残 越 有 可 能 为 智能 体 找到 好 
的 行动 方案 。 





这 两 种 方法 是 否 可 以 混合 使 用 ? 也 就 是 说 ， 如 果 可 能 的 话 ， 我 们 能 
个 使 用 搜索 算法 深入 搜索 游戏 树 ， 然 后 在 搜索 算法 和 神经 网 络 的 混合 体 
中 使 用 像 雅 达 利 游戏 网 络 那样 的 非常 复杂 的 评价 函数 ? 


1. 雅 达 利 游戏 网 络 还 有 其 他 局 限 ， 比 如 内 存 不 足 ， 这 也 给 它 在 游戏 中 带 来 了 问题 。 


西洋 双 陆 棋 程 序 


杰 拉 和 尔 德 . 特 索 罗 (Gerald Tesauro) 是 IBM 的 一 名 研究 员 ， 他 为 沃 
森 玩 《和 危险 边缘 》 开 发 了 博弈 策略 。20 世 纪 90 年 代 中 前 期 ， 他 开发 了 一 
个 玩 西 洋 双 陆 棋 的 程序 ， 使 用 的 方法 正 是 博 奔 策略 。 西 洋 双 陆 横 和 国际 
象棋 一 样 ， 是 一 种 双人 游戏 ， 玩 家 在 棋盘 上 移动 棋子 。 除 了 玩家 走 子 之 
外 ， 游 戏 还 需要 掷 般 子 ， 所 以 它 每 一 层 的 分 文 因子 达到 了 几 百 《请 记 
住 ， 一 层 代表 一 个 玩家 的 一 次 走 子 )。\ 注 





特 索 罗 为 智能 体 编程 了 强化 学 习 程序 ， 就 像 DeepMind 为 它 的 雅 达 
利 游戏 智能 体 所 做 的 那样 。 和 DeepMind 一 样 ， 特 索 罗 设 计 的 智能 体 使 
用 神经 网 络 。 它 的 架构 是 我 们 先前 看 到 的 “ 简 蛙 的 ”神经 网 络 架 构 ， 包 括 
输入 层 、 输 出 层 和 一 个 隐藏 的 中 间 层 ， 如 图 14.11 所 示 。 
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特 索 罗 的 双 陆 棋 网 络 的 输入 层 编 码 了 每 个 玩家 的 棋子 在 棋盘 上 的 位 
置 ， 以 及 特 索 罗 人 工 创建 的 一 些 特征 。 输 出 层 代 表 了 网 络 需 要 学 习 的 4 
种 可 能 的 结果 : 玩家 1 胜 、 玩 家 2 胜 、 玩 家 1 全 胜 、 玩 家 2 全 胜 。 如 你 所 
见 ， 输 入 层 和 输出 层 之 间 是 隐藏 的 中 间 层 。 在 特 索 罗 的 实验 中 ， 这 个 隐 











藏 层 在 拥有 40 到 160 个 神经 元 时 效果 很 好 。 


特 索 罗 的 算法 是 搜索 算法 和 强化 学 习 的 混合 体 ， 在 使 用 神经 网 络 执 
行 评 价 函 数 之 前 ， 它 会 先 搜 索 两 到 三 层 。 三 请 记 住 : 特 索 罗 可 以 选择 使 
用 搜索 ， 因 为 双 陆 棋 中 的 状态 和 转换 都 是 明确 定义 的 。 在 特 索 罗 的 双 陆 
棋 算 法 的 早期 版 本 中 ， 他 使 用 专业 玩家 的 棋谱 进行 强化 学 习 来 训练 神经 
网 络 。 这 种 “监督 ”算法 效果 尚 可 ， 但 并 不 十 分 理想 。 


当 特 索 罗 让 神经 网 络 自我 对 弈 时 ， 情 况 发 生 了 变化 ， 这 使 得 神经 网 
络 接触 到 了 几乎 无 限量 的 训练 数据 ， 这 与 雅 达 利 游戏 智能 体 在 虚拟 
的 < 街机 学 习 环境 中 玩 数 百 万 局 游戏 获得 的 好 处 相同 。 在 自我 对 弈 了 大 
约 150 万 盘 棋 后 ， 特 索 罗 的 “搜索 + 神经 网 络 * 混 合体 可 以 与 最 优秀 的 人 类 
玩家 一 争 胜 负 〔 当 你 阅读 这 篇 文章 时 ， 它 很 可 能 已 经 比 最 优秀 的 人 类 玩 
家 水 平 更 高 了 ) 。 它 甚至 教会 了 专业 双 陆 棋 玩 家 新 的 策略 ， 颠 覆 了 游戏 
的 传统 智慧 。 = 


特 索 罗 用 双 陆 棋 神 经 网 络 进行 自我 对 弈 ， 这 成 了 人 工 智 能 领域 的 一 
个 著名 故事 ， 但 这 种 方法 在 人 工 智 能 和 双 陆 棋 领 域 之 外 鲜 为 人 知 。 被 公 
众 熟知 的 玩 游戏 的 人 工 智 能 程序 是 那些 登 上 全 国 头 条 新 闻 的 程序 ， 例 
如 “深蓝 ” 沃 森 ? 以 及 在 2016 年 和 2017 年 击败 了 两 位 围棋 世界 冠军 的 
AlphaGo. 
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搜索 的 局 限 


“深蓝 ”和 特 索 罗 的 双 陆 棋 程 序 背 后 的 忠 想 是 最 终 使 AlphaGo 攻 元 
棋 的 算法 基础 ， 但 这 些 思想 本 里 还 不 够 。 一 台 下 国际 象棋 的 计算 机 可 以 
依 徘 每 秒 数 亿 步 的 蛋 力 搜索 ， 以 及 用 一 个 相当 简单 的 评价 函数 来 修剪 挥 
搜索 树 中 的 大 部 分 分 文 。“ 深 下 ”包含 8000 个 特征 的 评价 函数 ， 这 听 起 来 
可 能 并 不 简单 ， 但 其 中 的 特征 大 部 分 都 是 人 类 可 以 解释 的 。 这 些 因 素 加 
在 一 起 足以 推动 计算 机 算法 达到 并 超越 人 类 棋 力 的 极限 。 





围棋 则 不 同 。 围 棋 的 分 文 因子 是 国际 象棋 的 近 10 倍 ， 而 且 围棋 的 评 
价 函 数 也 必然 比 国际 象棋 的 复杂 得 多 。 正 如 我 们 将 在 下 一 章 中 看 到 的 ， 
当 特 索 罗 开发 出 了 双 陆 棋 游 戏 智能 体 ， 以 及 1997 年 “深蓝 ”战胜 卡 斯 帕 罗 
夫 的 时 候 ， 计 算 机 下 出 高 水 平 围 棋 所 必需 的 思想 甚至 还 不 存在 。 要 让 计 
算 机 围棋 智能 体 达到 最 优秀 的 人 类 棋 手 的 水 平 ， 还 需要 20 年 积累 的 新 思 
想 和 硬件 改进 。 


15 职业 水 平 的 围棋 


简单 地 扩展 更 多 更 快 的 处 理 器 对 当前 的 技术 而 言 是 不 够 的 。 我 认为 
我 们 需要 一 两 个 算法 上 的 突破 性 思想 。 


马丁 。 穆 勒 (Martin Muller) 
阿尔 伯 塔 大 学 计算 机 科学 教授 兼 副 主席 


2011 年 春天 ，IBM 的 “ 沃 和 森 ?在 《危险 边缘 》 中 击败 世界 冠军 ， 登 上 
全 球 新 闻 头 条 之 后 ， 该 项 目的 研究 人 员 在 世界 各 地 进行 了 各 种 演讲 。 往 
姆 斯 :法 恩 是 开发 该 系统 的 最 热心 的 支持 者 之 一 ， 也 是 系统 的 主要 研究 
人 员 之 一 。 他 在 一 次 旅行 中 访问 了 阿尔 伯 塔 大 学 ， 在 那里 他 过 到 了 几 位 
人 工 智 能 领域 的 顶尖 研究 人 员 。 其 中 一 位 是 马丁 ' 称 勒 ， 他 一 直 在 研究 
计算 机 围棋 算法 。 这 些 研究 人 员 引 领 这 个 领域 已 经 有 一 段 时 间 了 ， 但 问 
题 很 难 解 决 。 正 如 穆 勒 教授 思考 的 那样 ， 目 前 我 们 还 不 清楚 计算 机 是 否 
能 在 短期 内 解决 这 个 问题 。 业 内 的 普 衣 共识 是 ， 计 算 机 围棋 至 少 还 需要 
10 年 才能 实现 。 但 是 称 勒 和 他 的 同事 并 没有 被 挑战 吓 倒 ， 继 续 致力 于 对 
这 一 问题 的 研究 。 
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计算 机 围棋 


古老 的 围棋 一 直 被 认为 是 游戏 人 工 智能 领域 最 大 的 挑战 之 一 。 这 种 
最 古老 的 游戏 仍然 保留 了 它 原 始 的 形式 ， 今 天 在 全 球 拥有 数 千 万 玩家 。 
尽管 围棋 历史 悠 入 ， 但 在 互联 网 时 代 ， 围 棋 也 意外 地 与 科技 并 行 。 早 在 
互联 网 出 现 之 前 ， 围 横 玩 家 就 使 用 联网 的 计算 机 进行 远程 对 奉 ;1992 — 
年 ， 互 联网 围棋 服务 需 问 世 了 ， 围 棋 爱 好 者 可 以 一 起 聚 在 网 上 下 模 。 三 
随 独 时 间 的 推移 ， 更 多 的 服务 器 出 现 了 ， 这 使 得 围棋 玩家 能 够 遇 上 世界 
各 地 的 玩家 ， 并 与 他 们 进行 对 穿 。 





《华尔街 日 报 》 在 2016 年 最 后 一 周报 道 ， 一 位 名 叫 Master〈 大 师 ) 
的 神秘 玩家 出 现在 其 中 一 个 服务 器 上 ， 其 头像 是 一 只 大 眼睛 卡通 狐狸 。 
Master 很 奇怪 ， 落 子 不 经 思考 ， 经 名 下 出 非常 规 或 看 似 很 糟糕 的 棋 。 但 
它 的 策略 不 知 为 何 总 是 奏效 : 在 一 周 的 时 间 里 ， 它 击败 了 多 位 世界 顶尖 
棋 手 。 事 实 上 ，Master 那 一 周 的 表现 非常 出 色 ， 它 赢得 了 全 部 60 盘 棋 的 
胜利 。 在 此 期 间 ，Master 有 一 盘 棋 的 对 手 是 当时 19 岁 的 世界 冠军 柯 洁 。 





围棋 界 的 大 多 数 棋 手 都 不 知道 这 位 神秘 的 Master 是 谁 ， 但 柯 洁 在 对 
局 前 就 被 告知 : Master 是 AlphaGo 在 网 络 上 的 秘密 身份 ， 是 谷歌 的 
DeepMind 创 建 的 围棋 算法 。 


AlphaGo 并 不 是 第 一 个 下 围棋 的 程序 。 目 1968 年 以 来 ， 人 们 一 直 在 
编写 计算 机 程序 来 下 围棋 。1985 年 ， 茶 组 织 巧 贫 4000 万 元 新 合 币 《〈 约 合 
今天 的 140 万 美元 ) ， 奖 励 给 能 够 创造 出 战胜 职业 棋 手 的 算法 、 开 创 计 
算 机 围棋 工作 的 人 。 而 这 个 奖项 10 多 年 来 一 直 未 能 颁发 ， 直 至 被 撤销 ， 
取而代之 的 是 其 他 奖项 。 三 甚至 IBM 也 尝试 过 创造 计算 机 围棋 算法 ， 它 
的 一 些 研 究 人 员 在 被 拉 去 研究 “ 添 森 ?之 前 ， 也 在 研究 这 个 问题 。 三 但 在 








近 半 个 世纪 的 时 间 里 ， 一 个 能 够 战胜 世界 上 最 优秀 的 围棋 选手 的 计算 机 
程序 仍然 遥 不 可 及 。 


这 并 不 是 因为 缺乏 尝试 。 围 棋 对 计算 机 而 言 古 一 个 非常 困难 的 游 
戏 。 在 每 个 回合 中 ， 玩 家 必须 从 大 约 250 种 可 能 的 着 法 中 进行 选择 。 三 
仅仅 搜索 前 三 层 〈 你 走 一 步 ， 我 走 一 步 ， 你 再 走 一 步 ) 的 算法 束 已 经 需 
要 考虑 超过 1000 万 种 棋盘 状态 。 而 几 干 万 种 状态 仅仅 是 一 盘 典 型 围棋 对 
局 的 冰山 一 角 ， 一 盘 围 棋 大 约会 持续 150 步 ， 这 大 致 是 一 盘 国际 象棋 步 
数 的 两 倍 ， 而 其 状态 数 则 是 国际 象棋 的 很 多 倍 。 三 所 以 程序 员 几 十 年 来 
一 直 在 尝试 ， 使 用 了 各 种 典型 的 人 工 智 能 技术 : 他 们 编写 程序 来 搜索 游 
戏 树 ， 并 开 友 评价 函数 通常 是 简单 的 加 权 平 均 分 类 器 〉 进 行 芍 枝 。 然 
而 ， 游 戏 树 过 于 庞大 ， 程 序 员 的 评价 函数 又 太 简单 。 
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棋 


围棋 的 规则 很 简单 。 和 国际 象棋 一 样 ， 它 是 双人 游戏 : 一 人 执 黑 
子 ， 另 一 人 执 白 子 。 玩 家 轮流 在 19x19 的 网 格 上 落 子 。 YE. BUT 
就 被 固定 在 棋盘 上 无 法 移动 ， 除 非 被 对 手 “ 吃 掉 ”。 如 果 棋 子 被 吃 摊 ， 就 
会 被 从 棋盘 上 拿 走 。 











围棋 的 目标 是 占领 地 盘 ， 即 让 你 的 棋子 在 游戏 结束 时 尽 可 能 多 地 覆 
盖 棋 盘 。 棋 局 中 的 重要 动态 是 ， 每 个 玩家 都 有 能 力 吃 掉 对 手 的 棋子 ， 方 
法 是 用 自己 的 棋子 完全 包围 住 对 手 棋 子 。 如 果 玩 家 在 棋盘 上 沙 下 一 枚 棋 
子 之 后 ， 完 全 包围 了 对 手 的 棋子 ， 让 其 没有 了 “ 气 ” 那么 玩家 就 可 以 把 
这 些 棋子 从 棋盘 上 拿 掉 。 你 可 以 在 图 15.1 a) 和 图 15.1 b) 中 看 到 这 
样 的 示例 ， 这 是 两 位 冠军 李 世 石 和 柯 洁 之 间 的 一 盘 棋 。 图 15.1 (b 
中 ， 白 棋 在 D6 处 沙子， 吃 掉 了 D4 和 D5 处 的 两 枚 黑子 ， 然 后 玩家 就 把 它 
们 从 棋盘 上 拿 掉 。 这 样 ， 白 棋 为 自己 获得 了 地 盘 ， 并 进一步 巩固 了 自己 
的 地 位 。 当 任意 一 位 玩家 认输 ， 或 者 两 位 玩家 都 放弃 沙子 的 时 候 ， 棋 局 
就 此 结束 。 
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图 15.1 两 位 围棋 冠军 李 世 石 和 柯 洁 之 间 的 一 盘 对 局 。 (a) 图 中 黑 棋 落 子 ， 接 下 来 
(b) 图 中 白 棋 落 子 ， 白 棋 落 子 后 ， 吃 掉 了 两 枚 黑子 。 棋 局 截图 来 自 
https://gogameguru. com/2ndml i | y-cup- 
final (thisisgame3of5oftheML i | ycupf inal ) 





尽管 围棋 规则 简单 ， 但 围棋 的 策略 深刻 而 又 微妙 。 这 一 事实 并 没有 
被 全 世界 的 职业 棋 手 回避 。 柯 洁 输 给 Master 后 ， 他 反思 道 :“ 人 类 经 过 
了 干 年 的 实战 演练 进化 ， 计 算 机 却 告 诉 我 们 ， 人 类 全 都 是 错 的 。 我 觉 
得 ， 甚 至 没有 一 个 人 洛 到 围棋 真理 的 边 儿 。” 三 








这 也 是 围棋 对 计算 机 而 言 具 有 挑战 性 的 原因 之 一 : 众所周知 ， 判 断 
围棋 棋局 的 状态 异常 困难 。 你 吃 掉 对 手 的 棋子 还 是 对 手 吃 掉 你 的 棋子 ， 
二 者 之 间 的 差别 取决 于 你 的 一 枚 棋子 是 否 放 错 了 人 位置。 例如， 如 果 图 
15.1 O) FINA HRA FEDER, ABA IRURE n] UA P TEEGTE fA 
枚 白 子 。 


计算 机 难以 评价 围棋 的 男 一 个 原因 是 ， 没 有 哪 枚 棋子 是 特殊 的 。 棋 
盘 上 棋子 的 价值 完全 取决 于 这 些 棋子 的 位 置 。 这 与 国际 象棋 不 同 ， 国 际 
象棋 的 评价 函数 在 很 大 程度 上 依赖 于 不 同 棋 子 的 价值 “我 们 在 上 一 章 中 
称 之 为 子 力 特征 ) 。 在 国际 象棋 中 ， 星 后 的 价值 远 远大 于 兵 ， 以 牺牲 星 
后 为 代价 攻击 一 个 兵 ， 你 永远 都 不 会 考虑 这 种 看 法 。 在 围棋 中 ， 评 价 函 
数 必须 识别 棋盘 上 棋子 的 重要 模式 ， 这 需要 可 以 媲美 人 类 的 模式 匹配 能 
力 ， 这 是 一 项 非凡 的 任务 ， 因 为 这 些 直觉 通常 很 难 被 人 类 描述 。 棋 局 瞬 
FATA AR SSE Da SAA: 正如 我 们 在 上 一 段 中 所 看 到 的 ， 对 剪 
枝 层 次 以 下 的 搜索 树 来 说 ， 有 许多 结果 取决 于 一 枚 棋子 的 位 置 。 

















1. 有 些 围棋 使 用 9x9 或 13x13 路 棋盘 。 


2: Dou and Geng,“Humans Mourn Loss after Google Is Unmasked as China's Go Master.” 
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我 第 一 次 下 围棋 是 在 大 学 里 和 一 个 会 下 棋 的 朋友 玩 儿 。 他 给 我 的 建 
议 是 :“ 把 这 个 程序 下 载 到 你 的 电脑 上 ， 然 后 快速 地 和 电脑 下 几 盘 。 一 
开始 你 甚至 不 用 关心 目 己 下 得 是 好 是 坏 。 你 只 需 多 下 几 盘 ， 直 到 你 对 转 
棋 的 棋 理 建立 起 直觉 。” 














我 听从 了 他 的 建议 ， 很 快 便 发 现 仅仅 知道 规则 是 不 够 的 。 虽 然 我 的 
棋 力 一 直 很 差 ， 但 很 明显 ， 围 棋 高 手 需要 拥有 人 类 擅长 的 那 种 直觉 。 虽 
然 我 可 以 用 语言 来 解释 一 些 直觉 ， 但 大 部 分 直觉 都 只 是 我 潜意识 里 的 模 
式 匹配 ， 这 种 直觉 难以 言 表 : 把 棋子 下 在 远离 棋盘 边缘 和 对 手 棋子 的 地 
方 ， 但 也 不 能 太 远 等 。 这 给 我 们 带 来 了 用 计算 机 算法 玩 围棋 的 一 个 关键 
问题 ， 我 们 如 何 为 评价 函数 选取 足够 丰富 的 特征 来 充分 捕捉 人 类 的 直 
觉 ? 不 幸 的 是 ， 我 们 很 快 就 会 看 到 ， 即 使 一 个 很 好 的 评价 函数 也 不 足以 
对 搜索 树 进 行 足够 的 修剪 。 因 此 ， 让 我 们 直接 转向 我 们 最 终 要 关心 的 问 
题 : AlphaGo 如 何 遍 历 它 的 搜索 树 ”? 























AlphaGo 选 择 着 法 的 策略 背后 的 粗略 直觉 有 斥 像 我 的 大 学 朋友 给 我 
的 建议 : 快速 下 很 多 盘 棋 ， 建 立 起 一 种 直 党 。 每 次 轮 到 AlphaGo 走 棋 
时 ， 它 都 会 从 当前 的 棋盘 局 面 开 始 模拟 一 系列 棋局 。 它 在 其 硅 基 大 脑 的 
想象 中 下 每 一 盘 棋 ， 在 搜索 树 中 深入 挖掘 一 条 路 笃 ， 直 到 这 盘 假 想 的 棋 
局 结束 。 在 下 完 这 盘 假想 的 棋局 后 ， 程 序 就 会 知道 棋局 的 胜 负 结果 。 程 
序 假想 的 棋局 几乎 不 可 能 成 为 实战 进程 ， 但 这 并 不 重要 。 重 要 的 是 ， 
AlphaGo 可 以 成 和 干 上 万 次 地 重复 相同 的 事情 ， 以 此 建立 一 种 直觉 来 决定 
下 一 步 棋 的 走 法 。 














为 了 建立 这 种 直觉 ，AlphaGo 将 它 假想 的 棋局 的 胜 负 统计 数据 推 到 
搜索 树 的 最 高 层次 ， 那 里 存储 了 从 当前 局 面 开始 选择 不 同 着 法 后 的 胜 负 





次 数 。 一 旦 推演 了 足够 多 的 棋局 ， 它 就 会 拥有 关于 下 一 步 棋 应 该 走 在 哪 
里 的 感觉 ， 而 这 种 感觉 是 更 好 地 基于 数据 而 产生 的 。 : 





你 可 以 在 图 15.2 Ca) 和 图 15.2 b) 中 看 到 这 种 抽样 方法 的 示例 。 
在 图 15.2 (a) 中，AlphaGo 推 演 了 了 一盘棋， 一 直到 树 的 底部 。 然 后 ， 它 
会 查看 哪个 玩家 会 赢得 棋局 ， 并 将 胜 负 信 息 发 送 回 搜索 树 的 顶部 ， 在 那 
里 记录 胜 负 统计 数据 。 假 设 这 棵 树 有 50 层 。 如 图 所 示 ， 树 的 分 支 因子 为 
2， 那 么 树 的 最 底部 大 约 有 1000 万 亿 种 状态 。 请 记 住 ， 围 棋 搜索 树 要 
比 这 张 图 大 许多 个 数量 级 。) 





AlphaGo 的 难点 在 于 模拟 实战 棋局 。 它 必须 预测 出 自己 和 对 手 每 个 
回合 可 能 走 的 着 法 。 它 不 能 完全 依靠 随机 抽样 走 季 。 三 用 随机 抽样 走 子 
推演 的 棋局 胜 负 统计 数据 ， 对 预测 真实 棋局 的 结果 并 不 是 很 有 用 。 相 
反 ，AlphaGo 需 要 一 种 方法 来 预测 职业 棋 手 会 选择 哪些 着 法 。 





AlphaGo 如 何 能 够 做 到 这 一 点 ?事实 上 ，DeepMind 对 它 的 雅 达 利 游 
戏 智能 体 使 用 了 相同 的 方法 ， 以 此 预测 它 的 行动 ， 对 此 你 可 能 不 会 感到 
惊讶 。 每 当 AlphaGo 需 要 模拟 棋局 时 ， 它 会 一 步 接 一 步 地 预测 每 个 玩家 
可 能 选择 的 着 法 ， 预 测 在 对 奔 过 程 中 玩家 在 棋盘 上 落下 的 假想 棋子 。 
当 需 要 在 推演 棋局 的 过 程 中 规划 一 步 棋 时 ， 它 束 用 输入 了 棋盘 和 假想 棋 
子 的 神经 网 络 来 做 决定 。 








图 15. 2 围棋 搜索 树 中 的 一 个 模拟 棋局 的 例子 ， 可 用 作 走 子 决策 中 的 一 个 抽样 。 
(a) 抽样 棋局 会 一 直 推 演 到 棋局 结束 。 (b) 棋局 结束 时 AlphaGo 便 可 知道 胜 负 结 
果 ， 胜 负 信息 通过 搜索 树 被 发 送 到 顶部 。 抽 样 棋 局 有 时 被 称 为 “ 走 子 演 算 ” 


我 们 把 这 个 神经 网 络 称 为 AlphaGo 的 走 子 预测 网 络 。 三 这 个 走 子 预 
测 网 络 与 DeepMind 用 于 玩 雅 达 利 游戏 的 网 络 非常 相似 : 它们 都 使 用 很 
多 卷 积 层 。 但 是 二 者 的 网 络 以 及 二 者 的 智能 体 使 用 网 络 的 方式 有 一 些 重 
要 的 不 同 。 





别 迄 了 ， 雅 达 利 游戏 网 络 是 非常 通用 的 。DeepMind 不 能 将 任何 特 
定 于 游戏 的 想法 构建 到 网 络 结构 中 ， 因 为 网 络 需要 玩 许多 不 同 的 雅 达 利 
游戏 。 它 唯一 的 输入 是 屏幕 上 每 个 像 系 的 红 、 绿 、 欧 数值 ， 以 及 屏幕 上 
显示 的 最 近 几 帧 的 像素 值 。 











另 一 方面 ，AlphaGo 的 走 子 预测 网 络 是 专门 为 下 围棋 设计 的 。 它 有 
很 多 特定 于 围棋 的 逻辑 ， 其 中 大 部 分 逻辑 的 形式 都 表现 为 DeepMind 创 
建 的 总 结 棋 手 行 棋 方 式 的 特征 库 。AlphaGo 的 一 个 版 本 向 其 神经 网 络 馈 
入 了 多 达 48 个 棋盘 副本 《被 称 为 “特征 平面 ?>) 作为 输入 ， 每 个 棋盘 副本 
提供 了 关于 棋盘 上 各 类 局 面 的 不 同 信息 ， 也 就 是 不 同 的 特征 。 





其 中 几 个 特征 平面 总 结 了 盘面 的 状态 : 一 个 平面 表示 每 个 位 置 上 是 
否 有 黑子 ， 另 一 个 平面 表示 每 个 位 置 上 是 否 有 白 子 等 。 一 些 特征 平面 传 
达 了 游戏 规则 :在 这 里 落 子 是 否 是 玩家 的 合法 着 法 ? 在 这 里 落 子 会 吃 卸 
对 手 多 少 枚 棋子 ? 剩余 的 许多 特征 平面 提供 了 关于 局 面 的 目 定 义 的 战术 
特征 ， 尺 管 它们 很 简单 。 这 些 特征 通常 会 捕捉 到 与 好 棋 相 关 的 非常 简单 
的 直觉 : 这 枚 棋子 周围 有 多 少 个 空白 交叉 点 ? 棋子 放 在 这 里 有 多 少 个 回 
tlf? 三 《我 们 稍 后 会 看 到 ， 最 新 版 本 的 AlphaGo 不 需要 这 么 多 人 工 创 
建 的 特征 。) 

















AlphaGo 的 走 子 预测 网 络 的 架构 也 与 雅 达 利 游戏 网 络 不 同 。 首 先 ， 
AlphaGo 的 网 络 要 深 得 多 ， 它 有 13 层 ， 深 育儿 乎 是 雅 达 利 游戏 网 络 的 三 














倍 。 昌 然 深度 更 深 ， 但 它 在 最 后 缺少 一 个 全 连接 隐藏 层 。 除 了 输出 层 之 
外 ， 它 的 所 有 隐藏 层 都 是 卷 积 层 。 











儿童 之前， 我 们 了 解 到 卷 积 层 有 一 组 简单 的 模式 匹配 分 类 器 ， 这 被 
称 为 过 滤器 ， 它 们 会 思 历 前 面 层次 上 的 一 片刻 神经 元 小 区 域 。 三 这 些 过 
小 器 是 神奇 的 “物体 探测 器 *， 可 以 识别 前 一 层 中 有 趣 的 模式 ， 这 些 模式 
在 网 络 进 行 预测 时 非常 有 用 。 这 些 卷 积 层 中 的 每 一 个 都 标识 了 在 输入 平 
面 中 出 现 的 有 趣事 物 的 位 置 。AlphaGo 的 第 一 个 卷 积 层 使 用 了 大 约 200 个 
独立 的 5x5 过 滤 硕 。 换 言 之 ， 这 一 层 在 特征 平面 上 得 找 200 种 不 同 的 模 
式 ， 这 些 模式 会 表明 棋局 中 正在 发 生 一 些 有 趣 的 事情 。 每 当 过 滤器 在 特 
征 平 面 的 茶 个 位 置 发 现 一 个 有 趣 的 模式 时 ， 下 一 层 中 与 之 对 应 的 神经 元 
LATE. 


随后 ，AlphaGo 的 走 子 预测 网 络 中 的 后 续 层 应 用 它们 目 己 的 过 涛 需 
来 搜索 上 一 层 的 过 滤 吉 的 组 合 。 三 就 像 图 像 分 类 神经 网 络 中 的 卷 积 层 可 
以 找到 毛皮 、 了 眼睛 或 人 上 脸 之 类 的 复杂 像素 模式 一 样 ，AlphaGo 的 深 展 若 
积 层 也 可 以 在 棋盘 上 找到 棋子 的 重要 模式 ， 这 些 模 式 正 是 人 类 高 手 可 能 
会 寻找 的 。 当 走 子 预测 网 络 运行 时 ， 它 的 神经 元 会 逐 层 地 腕 起 来 ， 网 络 
深 处 的 层 会 发 现 越 来 越 复杂 的 棋 形 。 























AlphaGo 的 走 子 预测 网 络 在 输出 形式 上 也 不 同 于 雅 达 利 游戏 网 络 。 
还 记得 吗 ， 雅 达 利 网 络 会 预测 智能 体 选 择 不 同 动作 时 期 望 的 未 来 奖励 ， 
而 且 雅 达 利 游戏 智能 体 仅 选择 期 望 奖励 最 高 的 动作 。AlphaGo 的 走 子 预 
测 网 络 会 对 每 个 玩家 可 能 采用 的 着 法 生成 一 个 概率 分 布 。 然 后 AlphaGo 
使 用 这 个 网 络 的 输出 ， 束 好 像 它 是 一 个 加 权 的 人 般 子 一 样 。 当 它 假想 棋局 
的 剩余 部 分 在 它 的 一 个 模拟 中 推演 时 ， 它 会 掷 出 这 个 加 权 骨 子 来 选择 它 
的 下 一 步 ， 更 频 紧 地 选择 那些 走 子 预测 网 络 认 为 应 该 采用 的 着 法 。 





DeepMind 训 练 AlphaGo 的 走 子 预测 网 络 时 ， 使 用 了 互联 网 围棋 服务 


器 上 人 类 高 手 棋谱 中 的 3000 万 步 棋 。 三 当 DeepMind 完 成 走 子 预测 网 络 


VIS, E CES SESS JE AS TREO ASST: 在 一 盘 棋 中 ， 玩 家 
必须 从 大 约 250 个 可 能 的 选 点 中 进行 选择 ，AlphaGo 的 走 子 预测 网 络 能 够 
以 相当 可 观 的 57% 的 准确 率 预 测 玩家 的 选 点 。 三 这 并 不 完美 ， 所 以 
AlphaGo 对 于 对 手 可 能 采用 的 独 法 仍 有 很 多 不 确定 性 。 但 是 ， 通 过 在 假 
想 中 推演 棋局 的 时 候 对 玩家 的 着 法 进行 抽样 ，AlphaGo 可 能 是 合理 的 ， 
因为 即使 职业 棋 手 也 不 能 完全 准确 地 预测 他 们 的 对 手 会 选择 什么 样 的 着 
法 。 抽 样 将 使 AlphaGo 面 对 每 个 玩家 着 法 的 不 确定 因素 做 出 更 好 的 决 
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虽然 走 子 预 测 网 络 如 此 精确 ， 但 它 慢 得 不 切实 际 。DeepMind 友 
现 ， 对 网 络 的 完整 评估 大 约 需要 3 坚 秒 。 .三 这 听 上 去 或 许 很 快 ， 但 一 般 
而 言 ， 一 盘 棋 大 约 需要 150 步 。 这 意味 着 模拟 一 盘 棋 可 能 需要 将 近 半 秒 
钟 的 时 间 ， 也 就 是 说 ， 生 成 需要 的 数 干 个 样本 中 的 一 个 样本 就 要 花费 将 
近 半 秒 钟 的 时 间 。 这 就 太 慢 了 。 例 如 ， 在 AljphaGo 上 运行 的 一 系列 实验 
中 ，DeepMind 只 给 AlphaGo5 秒 的 时 间 来 计算 每 一 步 棋 。AlphaGo 如 何在 
运行 精确 模拟 的 同时 足够 快 ， 让 它 走 一 步 棋 不 用 花 几 个 小 时 来 计算 ? 








AlphaGo 还 面临 着 一 个 更 大 的 问题 。 如 果 走 子 预测 网 络 不 完美 〈 它 
的 确 不 完美 ) ， 那 么 它 就 无 法 保证 AlphaGo 在 其 搜索 树 顶 部 收集 的 胜 负 
统计 数据 会 告诉 它 走 哪 一 步 最 好 。 即 使 AlphaGo 能 够 在 模拟 中 收集 到 尽 
可 能 多 的 数据 ， 情 况 也 是 如 此 。 即 使 它 可 以 在 瞬 眼 之 间 进 行 无 限 次 模 
拟 ， 它 仍然 可 能 永远 不 会 知道 哪 步 棋 最 好 。 这 是 AlphaGo 在 收集 和 使 用 
统计 数据 的 过 程 中 隐藏 的 一 个 微妙 而 严重 的 漏洞 导致 的 ， 至 少 从 我 目前 
为 止 的 解释 来 看 是 这 样 的 。 事 实 上 ，AlphaGo 至 今 还 没有 使 用 我 刚才 质 
述 的 算法 。AlphaGo 需 要 使 用 这 种 算法 的 改进 版 本 ， 使 其 能 够 在 速度 和 
精度 方面 不 受制 于 其 缓慢 的 走 子 预测 网 络 。 











1. Cameron Browne et al.,“A Survey of Monte Carlo Tree Search Methods,"TEEE 
Transactions on Computational Intelligence and AI in Games4,no.1(2012). 


2. 也 就 是 说 ，AlphaGo 不 能 通过 掷 硬币 来 均匀 地 随机 抽样 走 子 。 
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DeepMind 称 这 个 网 络 为 “强化 学 习 策 略 网 络 ”。 
Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 


卷 积 层 不 需要 遍历 前 一 层 的 所 有 小 区 域 ， 很 多 时 候 ， 它 们 的 步 长 大 于 1。AlphaGo 的 
卷 积 层 的 步 长 都 是 1。 


Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search.” 
































Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search.” 

DeepMind 还 用 强化 学 习 训练 了 一 个 更 好 的 走 子 预测 网 络 ， 方 法 是 让 走 子 预测 网 络 自 
我 对 弈 。 虽 然 这 种 网 络 在 对 弈 中 表现 要 优 于 最 初 的 网 络 ， 但 将 其 嵌入 完整 的 AljphaGo 算 法 
中 ， 它 的 表现 就 不 再 优秀 , “大 概 是 因为 人 类 选择 了 各 种 各 样 的 有 希望 的 着 法 ”。Silver et 


al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search”. 
































Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 


fie 


以 大 眼睛 狐狸 为 头像 的 围棋 玩家 Master 在 网 上 神秘 亮相 ， 这 并 不 是 
AlphaGo 第 一 次 登 上 新 闻 头 条 。 当 它 在 五 番 棋 比赛 中 5 比 0 战胜 欧洲 冠军 
攀 许 时， 它 就 在 计算 机 围棋 界 声名 远扬 ; 2016 年 ， 它 在 五 番 棋 比赛 中 4 
比 1 战 胜 了 世界 冠军 李 世 石 ， 再 次 登 上 全 球 新 闻 头 条 。 三 





AlphaGo 与 李 世 石 的 这 比赛 在 李 世 石 的 祖国 韩国 举行 ， 娠 
国 约 有 800 万 名 围棋 玩家 。 三 这 场 五 番 棋 比赛 既 痛 香 又 美好 。《 大 西洋 
月 刊 》 的 克里斯托弗 :莫耶 con Moyer) 在 其 中 一 盘 对 局 期 间 这 
样 摘 述 了 当时 的 氛围 。 


在 第 二 盘 棋 中 ， 李 世 石 表现 出 不 同 的 风格 ， 行 棋 变 得 更 加 谨慎 。 他 
等 待 一 切 可 以 利用 的 机 会 ， 但 AlphaGo 继 续 给 人 惊喜 。 第 37 手 ，AlphaGo 
弃 出 了 令 人 意 想不到 的 一 步 棋 ， 在 棋盘 右上 方 “ 尖 冲 ”三 。 这 步 棋 在 职 
业 棋 战 中 是 看 不 到 的 ， 但 它 WA Ht Fa RES de 
说 : “我 从 未 见 过 人 类 下 出 这 步 棋 。 太 美 了 。 


李 世 石 呢 ? 他 起 身 走 出 了 房间 。 人 们 暂时 还 不 清楚 发 生 了 什么 
随后 ， 他 重新 进入 对 局 室 ， 重 新 平静 下 来 坐 定 ， 弈 出 了 他 的 应 手 。 接 下 
来 的 棋 比 第 一 局 要 激烈 得 多 ， 但 结果 还 是 一 样 。 弃 至 第 211 手 ， 李 世 石 
PENH. VE 





AlphaGo 穿 出 这 手 “ 尖 冲 ” 后 ， 李 世 石 走出 了 房间 。 回 来 青 看 这 步 
棋 ， 他 花 了 将 近 15 分 钟 才 恢 复 了 状态 。= 


接 下 来 ， 李 世 石 叉 输 掉 了 第 三 盘 ， 所 以 连 输 三 盘 的 他 已 经 输 掉 了 五 
局 三 胜 的 比赛 。 作 为 人 类 对 抗 硅 基 机 咒 的 代表 ， 李 世 石 在 这 盘 棋 纺 束 后 








的 新 闻 发 布 会 上 对 全 世界 说 道 : “POIROT Be IRE ARTE, R 
觉得 很 无 力 。” 三 就 此 ， 谷 歌 顾 得 了 100 万 美元 的 奖金 ， 并 将 这 笔 钱 捐 给 
了 慈善 机 构 。 布 望 挽 回 章 严 的 李 世 石 和 AlphaGo 又 下 了 两 盘 。 在 接 下 来 
的 第 四 盘 中 ， 意 想不到 的 事情 发 生 了 。 








第 78 手 ， 李 世 石 在 思考 了 30 分 钟 后 ， 把 棋子 落 在 了 AlphaGo 的 两 枚 
棋子 之 间 ， 这 一 手 叫 “ 挖 ?>， 如 图 15.3 (a) 所 示 。 这 一 手 和 AlphaGo 的 “人 尖 
冲 ” 同 样 精彩 ， 同 样 出 人 意料 。 李 世 石 的 这 一 手 被 围棋 爱好 者 称 为 “ 神 之 
一 手 ”。 三 正如 《大 西洋 月 刊 》 的 克里斯托弗 .莫耶 和 《 连 线 》 杂 志 的 凯 
德 : 梅 次 (Cade Metz) 看 到 的 那样 ， 在 李 世 石 三 出 * 神 之 一 手 ” 后 ， 
AlphaGo 下 出 了 灾难 性 的 一 手 。 我 们 将 这 一 手 称 为 “大 象 之 手 ”， 如 图 
15.3 (b) Prax. 三 很 有 可 能 ，AlphaGo 此 时 根本 没有 任何 好 的 着 法 可 
下 ， 而 且 它 下 的 任何 着 法 都 可 能 是 灾难 性 着 法 ， 但 结果 都 一 样 。 几 分 钟 
后 ， 当 AlphaGo 再 进行 模拟 时 ， 它 对 这 盘 棋 胜率 的 估计 直线 下 降 。 最 
终 ， 李 世 石 赢 了 第 四 盘 棋 ， 韩 国 媒体 欢呼 雀跃 。 在 赛 后 的 新 闻 发 布 会 
上 ， 李 世 石 对 媒体 说 让 :“ 因 为 我 葵 了 三 盘 才 慑 了 这 一 盘 ， 这 盘 胜利 对 
我 来 说 弥 足 珍贵 ， 我 不 会 拿 它 跟 任何 东西 做 交换 。” 三 
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图 15. 3 李 世 石 在 同 AlphaGo 的 五 番 棋 比赛 的 第 四 盘 中 弈 出 “ 神 之 一 手 ”， 即 图 Ca) 
FAILI. REG, AlphaGo h "X Z4" , PPA (b) 中 的 K10。 棋 谱 请 见 
https: //gogameguru. com/ lee-sedol-defeats-alphago-master fu |-comeback-game- 
4 


在 第 四 盘 棋 后 ，AlphaGo 的 创始 人 分 析 了 这 几 个 回合 中 发 生 的 事 
情 。 他 们 发 现 ，AlphaGo 认 为 李 世 石 下 出 “ 神 之 一 手 ” 的 可 能 性 太 小 ， 所 
以 没有 对 搜索 树 的 那个 分 支 进行 足够 详细 的 探索 。AlphaGo 认 为 李 世 石 
下 出 这 手 棋 的 概率 只 有 万 分 之 一 。"S/ 
1. Cade Metz,“Why the Final Game Between AlphaGo and Lee Sedol Is Such aBig Deal for 


Humanity,"Wired,March14,2016;Christopher Moyer, "How Google's AlphaGo Beat aGo World 
Champion,” The Atlantic, March28,2016. 











2. Cade Metz,“In Two Moves,AlphaGo and Lee Sedol Redefined the 
Future,"Wired,March16,2016. 

3. 尖 冲 ， 围 棋 术 语 ， 指 在 对 方 棋子 的 对 角 线 上 方 走 棋 。 译 者 注 

4. Moyer,“How Google's AlphaGo Beat aGo World Champion." 

5. Metz,“In Two Moves, AlphaGo and Lee Sedol Redefined the Future.” 

6. Moyer,“How Google's AlphaGo Beat aGo World Champion." 

7. 另 一 种 译 法 是 “God's Touch” CEFA) . Metz,“In Two Moves,AlphaGo and Lee 
Sedol Redefined the Future." 

8. Moyer,"How Google's AlphaGo Beat aGo World Champion";Metz, Why the Final Game 
Between AlphaGo and Lee Sedol Is Such aBig Deal for Humanity." 

9. Metz,"Why the Final Game Between AlphaGo and Lee Sedol Is Such aBig Deal for 
Humanity." 


10. Metz,“In Two Moves, AlphaGo and Lee Sedol Redefined the Future.” 


蒙特 卡 洛 树 搜索 


在 新 干 年 的 第 一 个 10 年 里 ， 有 关 AlphaGo 如 何 模拟 棋局 的 算法 来 到 
了 一 个 转折 点 。 一 种 被 称 为 蒙特 卡 洛 树 搜 索 CMonte Carlo Tree Search, 
下 文 简称 MCTS) 的 算法 导致 了 计算 机 围棋 范式 的 转变 。 如 果 你 曾经 看 
过 计算 机 围棋 程序 的 统计 清单 ， 那 么 这 个 清单 很 可 能 被 分 成 两 组 : 
MCTS 之 前 一 组 ，MCTS 之 后 一 组 。MCTS 是 AlphaGo 解 决 其 走 子 预测 组 
慢 问 题 和 恶劣 的 错误 走 子 问题 的 方法 。 


MCTS 改 进 了 我 们 在 本 章 前 面 讲述 的 模拟 棋局 的 方式 。 正 如 我 们 之 
前 看 到 的 ， 它 使 智能 体能 够 推 江 许 多 盘 棋 ， 收 集 关 于 哪些 模拟 能 最 终 获 
胜 的 统计 信息 。 然 而 ， 与 我 们 之 前 看 到 的 模拟 算法 不 同 的 是 ， 它 每 次 模 
拟 棋局 时 都 会 经 历 两 个 不 同 的 阶段 。 











第 一 阶段 是 它 的 慢 速 走 子 演算 阶段 ，AlphaGo 像 先前 一 样 通过 从 搜 
索 树 顶部 附近 的 分 文 下 降 ， 运 行 慢 速 走 子 预测 神经 网 络 来 找到 AlphaGo 
或 其 对 手 未 来 走出 茶 步 棋 的 概率 ， 然 后 掷 出 带 有 这 些 概率 的 加 权 骨 子 来 
选择 要 走 的 棋 ， 如 图 15.4 所 示 。 这 与 我 在 前 一 节 中 描述 的 算法 原理 相 
同 。 





慢 速 走 子 演算 阶段 


快速 走 子 演算 阶段 


图 15. 4 慢 速 走 子 演算 阶段 和 快速 走 子 演算 阶段 之 间 的 边界 。 慢 速 走 子 预测 网 络 和 先 
前 模拟 的 胜 负 统计 人 信息， 有 是 用 于 在 慢 速 走 子 演算 阶段 选择 着 法 的 。 当 棋局 到 达 快 速 
走 子 演算 阶段 时 ， 它 在 边界 状态 上 会 运行 一 个 评价 函数 ， 并 使 用 快速 走 子 预测 网 络 
为 剩余 的 模拟 选择 着 法 。 随 着 AlphaGo 运 行 更 多 次 模拟 ， 并 对 树 顶 部 附近 的 状态 变 得 
更 有 信心 ， 它 会 扩展 慢 速 走 子 演 算 阶 段 的 范围 ， 把 最 有 希望 的 状态 包含 进来 


一 旦 AlphaGo 的 MCTS 算 法 延伸 到 搜索 树 足 够 远 的 位 置 ， 它 就 会 用 
两 种 不 同 的 方式 评估 棋局 。 首 先 ， 它 用 神经 网 络 评价 函数 对 棋局 进行 评 
佑 ， 预 测 AlphaGo 在 这 个 状态 下 获胜 的 概率 。 然 后 (更 确切 地 说 是 同 
时 ) ， 它 执行 非常 快速 的 走 子 泪 算 来 模拟 棋局 的 剩余 部 分 。 





AlphaGo 用 于 评价 函数 的 神经 网 络 与 慢 速 走 子 预测 神 经 网 络 几乎 相 
同 ， 只 是 它 的 末端 是 一 个 额外 的 、 隐 藏 的 全 连接 层 ， 就 像 雅 达 利 洲 戏 网 
络 一 样 。 接 下 来 是 一 个 输出 神经 元 ， 如 果 在 那个 局 面 AlphaGo 有 很 高 的 
获胜 概率 ， 那 么 输出 神经 元 束 会 完 起 。 





当 AlphaGo 运 行 这 个 评价 函数 时 ， 它 还 会 对 棋局 的 剩余 部 分 进行 非 
常 快速 的 模拟 。 这 与 运行 评价 函数 的 目的 类 似 ， 但 它 为 AlphaGo 提 供 了 
对 棋局 剩余 部 分 推演 方式 进行 独立 评估 的 能 力 。 





执行 快速 走 子 演算 的 最 简单 方法 是 随机 选择 走 子 。 实 际 上 ， 这 有 时 
是 通过 MCTS 完 成 的 ， 但 围棋 的 搜索 树 太 大 了 ， 因 此 AlphaGo 需 要 花费 
太 长 时 间 才 能 收集 到 准确 的 胜 负 统 计数 据 。 此 外 ，DeepMind 在 一 次 实 
验 中 发 现 ， 随 机 选择 走 子 在 实践 中 并 没有 很 好 地 发 挥 作用 。 相 反 ， 出 平 
意料 的 是 ，AlphaGo 使 用 了 男 一 个 神经 网 络 在 这 个 快速 走 子 演算 阶段 选 
择 走 子 。 这 个 快速 走 子 预测 网 络 是 慢 速 预测 网 络 的 轻 量 级 版 本 。 它 具有 
与 慢 速 走 子 预测 网 络 相 同 的 架构 ， 但 少 了 一 些 需要 耗费 时 间 计 算 的 输入 
特征 。 如 果 没 有 这 些 特征 ， 网 络 可 以 在 大 约 二 百 万 分 之 一 秒 的 时 间 内 预 
测 走 和子 。 这 种 加 速 的 代价 是 ， 在 预测 职业 棋 手 的 走 子 时 ， 快 速 走 子 预测 
网 络 的 准确 率 约 为 慢 速 网 络 的 一 半 。 





AlphaGo 评 价 函 数 的 这 两 个 部 分 使 它 能 够 足够 快 地 运行 ， 以 此 解决 
AlphaGo 所 面临 的 速度 问题 。 但 这 并 没有 弥补 潜伏 在 AlphaGo 选 择 关 法 
过 程 中 的 严重 漏洞 。 


MCTS 的 另 一 个 特性 解决 了 这 个 漏洞 : AlphaGo 总 是 选择 靠近 搜索 
树 顶 部 的 着 法 。 除 了 使 用 慢 速 走 子 预测 网 络 对 树 顶 附近 的 着 法 进行 抽样 
外 ，AlphaGo 开 始 偏爱 慢 速 走 子 演算 阶段 的 着 法 ， 这 是 基于 它 到 目前 为 
止 从 模拟 的 棋局 中 学 习 到 的 不 错 的 着 法 。 这 样 ， 即 使 AlphaGo 的 走 子 预 
测 网 络 在 某 些 方面 始终 是 错误 的 (即便 AlphaGo 用 它 的 网 络 选择 了 随机 
的 着 法 ) ，AlphaGo 最 终 也 能 学 会 走出 最 佳 着 法 ， 因 为 它 最 终 会 从 它 的 
模拟 结果 中 得 知 哪些 着 法 是 好 横 。 三 











当 轮 到 AlphaGo 走 棋 来 应 对 它 的 对 手 时 ， 它 通过 在 搜索 树 的 顶部 选 
择 最 大 数量 的 抽样 来 决定 它 的 着 法 。 因 为 AlphaGo 在 模拟 过 程 中 倾向 于 
选择 能 够 让 它 慑 棋 的 走 法 ， 所 以 它 选择 的 走 法 往往 是 高 质量 的 ， 并 且 它 
对 此 理解 得 非常 透彻 。 三 











MCTS 有 时 会 假设 一 个 固定 的 时 间 预 算 ， 也 就 是 说 ， 它 假设 有 一 段 
固定 的 时 间 用 来 行 横 ， 并 且 它 会 尽 可 能 长 时 间 地 运行 它 的 模拟 ， 模 拟 一 





盘 又 一 盘 横 ， 直 到 预算 的 时 间 耗 尽 为 止 。 这 在 每 个 玩家 每 个 回合 的 落 子 
时 间 有 限时 很 有 用 : AlphaGo 可 以 运行 尽 可 能 多 的 模拟 ， 直 到 它 的 时 间 
用 完 为 止 。 然 后 ， 当 AlphaGo 落 子 后 ， 它 的 对 手 跟 大 沙子 ， 此 时 
AlphaGo 就 会 重复 使 用 它 通 过 搜索 树 的 那 条 路 径 建 立 的 统计 数据 。 





1. Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 


2 Silver et al.,“Mastering the Game of Go with Deep Neural Networks and Tree Search." 
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的 原因 密切 相关 。 人 工 智 能 研究 人 员 对 MCTS 这 类 方法 进行 了 一 段 时 间 
的 研究 ， 但 很 难 找 到 一 种 方法 来 保证 该 算法 在 继续 运行 更 多 次 模拟 之 后 
最 终 会 找到 可 能 的 最 佳 着 法 。 相 反 ， 无 论 算 法 进行 了 多 长 时 间 的 处 理 ， 
这 些 早期 的 算法 仍然 可 能 产生 非 最 优 的 着 法 。 








让 MCTS 突 破 这 一 局 限 的 关键 在 于 探索 和 开发 之 间 的 微妙 平衡 ， 这 
是 人 工 智能 研究 人 员 的 一 个 众所周知 的 权衡 。 假 设 你 有 100 只 手臂 ， 每 
只 手臂 都 可 以 拉动 赌场 里 不 同 老虎 机 的 操纵 杆 。 因 为 你 需要 跟踪 你 的 手 
臂 ， 所 以 你 可 以 每 10 秒 钟 选择 一 台 老 虎 机 拉动 它 的 操纵 杆 。 这 家 赌场 很 
特别 ， 不 仅 因 为 它 迎合 了 长 着 100 只 手臂 的 顾客 的 需求 ， 还 因为 广告 说 
它 的 一 些 老 虎 机 吐出 的 平均 金额 超过 了 收入 。 








你 的 目标 是 在 夜晚 结束 前 从 这 个 赌场 启 走 更 多 的 钱 回 家 。 因 此 ， 当 
你 拉 这 些 操 纵 杆 时 ， 你 可 能 会 记录 每 台 老虎 机 吐出 的 奖金 这 台 1 美 
元 ， 那 台 0 美 元 ， 还 有 一 台 100 美 元 。 环 手 的 一 点 是 ， 每 次 拉动 每 台 机 器 
的 操纵 杆 它 都 会 吐出 不 同 数额 的 奖金 ， 而 你 一 开始 并 不 知道 这 些 机 器 会 
如 何 吐 钱 。 一 台 机 器 可 能 会 持续 吐出 10 美 元 ， 而 另 一 台 机 器 每 次 拉 操 纵 
杆 吐 出 的 钱 数 差 异 很 大 ， 但 平均 值 可 能 是 100 美 元 。 此 时 你 最 好 拉 第 二 
台 机 器 的 操纵 杆 ， 而 不 是 第 一 台 ， 即 使 你 第 一 次 拉 它 时 它 没 吐出 钱 来 ， 
你 也 需要 足够 多 次 地 去 尝试 才能 知道 它 的 收益 很 好 。 机 器 学 习 研 究 人 员 
对 这 一 问题 进行 了 广泛 的 研究 ， 他 们 把 这 个 问题 称 为 “多 臂 老 虎 机 ” 问 
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在 什么 情况 下 你 应 该 放弃 大 多 数 机 器 并 专注 于 少数 几 台 机 器 ?你 会 
满足 于 在 上 晚上 剩 下 的 时 间 里 只 拉 一 台 机 器 的 操纵 杆 吗 ?你 可 以 直观 地 认 
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据 ， 确 定 了 这 些 机 口 的 收益 ， 你 应 该 逐步 转 癌 收益 最 好 的 机 器 。 但 是 ， 
要 将 这 种 直觉 转化 为 计算 机 可 以 遵循 的 具体 算法 ， 同 时 确保 它 具 有 正确 
的 统计 特性 ， 则 有 点 丈 手 。 


在 MCTS 出 现 之 前 ， 先 前 的 树 抽 样 方法 也 面临 着 同样 的 困境 : 在 运 
行 模拟 时 ， 它 们 需要 充分 探索 游戏 树 ， 以 获得 哪 种 着 法 最 好 的 准确 感 
觉 。MCTS 的 突破 出 现在 2006 年 左右 ， 当 时 研究 人 员 发 现 了 一 种 改进 树 
抽样 的 方法 ， 以 确保 智能 体 最 终 能 够 找到 最 佳 着 法 ， 前 提 是 它 已 经 运行 
了 足够 多 的 模拟 。 这 就 是 随机 走 子 演算 策略 实际 上 可 以 用 于 MCTS 的 原 
D]: 使 用 MCTS 的 智能 体 在 下 过 更 多 盘 棋 后 开始 使 用 搜索 树 顶 部 附近 的 
胜 负 结果 统计 信息 。 只 要 它 进行 了 充分 的 实验 ， 了 解 了 最 好 的 着 法 ， 


MCTS 会 最 终 告诉 智能 体 可 能 的 最 佳 着 法 。 一 





这 种 抽样 方法 是 如 何 委 效 的 ? 在 上 文中 ， 我 把 这 个 问题 搁置 在 一 
边 ， 说 道 :“ 一 旦 AlphaGo 的 MCTS 算 法 延伸 到 搜索 树 足 够 远 的 位 置 ， 它 
就 会 用 两 种 不 同 的 方式 评估 棋局 。”MCTS 中 的 关键 决策 是 智能 体 决定 在 
何 处 切换 到 快速 走 子 演算 集 略 ， 以 及 在 此 之 前 如 何 对 它 的 着 法 进行 抽 
样 。 


还 记得 吗 ， 当 AlphaGo 在 搜索 树 的 高 处 运行 其 迭代 时 ， 它 在 靠近 搜 
过 树 顶 部 的 慢 速 走 子 演算 阶段 会 使 用 目前 为 止 收 集 的 胜 负 统计 信息 ， 以 
此 调整 着 法 。 但 它 也 需要 花 些 时 间 探 索 其 他 着 法 ， 束 像 你 需要 在 每 台 老 
庶 机 上 人 花 点 时 间 莹 试 一 下 ， 然 后 才 诀 定 转 回 最 好 的 老虎 机 一 样 。 
AlphaGo 的 走 子 选择 算法 〈 即 它 在 搜索 树 的 顶端 选择 走 子 的 方法 ) 被 设 
计 成 在 没有 太 多 数据 时 更 偏爱 先 走 子 ， 它 使 用 了 一 个 类 似 于 2006 年 提出 
的 一 种 MCTS 的 变换 公式 。 三 

















AlphaGo 的 研究 人 员 对 MCTS 做 出 的 男 一 个 关键 决定 是 ， 它 在 何 处 
切换 到 快速 走 子 演算 策略 。 随 着 AlphaGo 的 树 搜索 算法 收集 到 更 多 证 据 





表明 搜索 树 中 的 某 条 路 径 是 好 的 ， 它 就 会 沿 着 这 条 路 径 进一步 向 前 推进 
边界 ， 以 便 在 切换 到 快速 走 子 演算 策略 之 前 可 以 开始 沿 该 路 径 进行 更 深 
入 的 搜索 。 在 概念 上 ， 这 很 像 许 峰 雄 和 他 的 团队 在 下 国际 象棋 的 “ 深 
蓝 ” 中 加 入 的 单 步 延 伸 。 请 记 住 ， 这 些 单 步 延 伸 让 “深蓝” 能 够 沿 着 让 玩 
家 非常 有 希望 获胜 的 一 系列 着 法 深入 树 中 搜索 ， 这 些 着 法 玩家 几乎 肯定 
会 走 ， 比 如 保卫 他 们 的 国王 。 当 AlphaGo 看 到 任何 一 个 玩家 的 一 系列 有 
潜力 的 走 法 时 ， 它 束 会 动态 地 学 习 这 些 单 步 延 伸 。 








1. Browne et al.,“A Survey of Monte Carlo Tree Search Methods.” 


2: Browne et al.,“A Survey of Monte Carlo Tree Search Methods.” Silver et al.,“Mastering the 
Game of Go with Deep Neural Networks and Tree Search.” 


AlphaGo 是 否 需要 如 此 复杂 


值得 思考 的 是 ，AlphaGo 中 的 各 种 设计 决策 是 如 何 对 其 成 功 产 生 重 
要 影响 的 。 根 据 我 们 在 其 他 游戏 算法 中 看 到 的 情况 ， 其 中 一 些 可 能 看 起 
来 很 奇怪 。AlphaGo 真 的 需要 如 此 复杂 吗 ? 例 如， 为 什么 AlphaGo 还 要 
SOLD BUR WE? 难道 它 不 能 搜索 到 某 个 固定 的 深度 ， 然 后 仅 使 用 神 
经 网 络 评价 函数 ， 惑 像 “ 深 蓝 ” 下 国际 象棋 那样 ? 





别 生 了， 围棋 的 搜索 树 比 国际 象棋 大 了 好 几 个 数量 级 。 如 果 
AlphaGo 退 随 “ 深 晤 ”的 脚步 ， 也 用 目 定 义 的 评价 函数 和 一 些 单 步 延 伸 的 
蛮 力 搜索 ， 那 么 它 很 可 能 要 么 速度 太 慢 ， 要 么 搜索 得 太 浅 。 忆 一 方面 ， 
AlphaGo 在 战胜 攀 府 时 评估 的 局 面 数量 仅仅 是 “深蓝 ”与 加 里 : 卡 斯 帕 罗 夫 
对 局 时 的 干 分 之 一 。 三 AlphaGo 的 创建 者 推出 ， 这 是 因为 AlphaGo 在 搜 
索 阶 段 使 用 慢 速 走 子 预测 网 络 更 智能 地 选择 了 看 法 ， 而 且 它 使 用 高 质量 
的 评价 函数 来 评估 这 些 着 法 。 三 正如 他 们 推测 的 那样 ，AlphaGo 使 用 
了 “一 种 可 能 更 接近 人 类 行 棋 方式 的 方法 ”。 LÀ 








DeepMind 投 入 了 大 量 资 源 开 发 AlphaGo， 团 队 约 有 20 名 员工 。 三 他 
们 对 AlphaGo 的 设计 方案 进行 了 广泛 的 实验 ， 而 AljphaGo 的 大 部 分 复杂 
性 都 是 通过 执行 这 样 或 那样 的 实验 来 证 明 的 。 例 如 ， 当 他 们 决定 在 卷 积 
层 中 使 用 多 少 个 过 滤器 时 ， 他 们 尝试 了 各 种 不 同 的 数字 ， 最 终 发 现 每 层 


使 用 100 或 200 个 过 滤器 效果 最 好 。 一 





DeepMind 进 行 的 另 一 项 实验 研究 了 在 慢 速 走 子 演算 阶段 之 后 ， 应 
该 如 何在 搜索 树 的 中 途 对 局 面 进行 评估 。 是 否 应 该 使 用 完全 随机 的 快速 
走 子 演算 ? 是 否 应 该 只 使 用 他 们 的 评价 函数 神经 网 络 ? 或 者 是 否 应 该 只 
用 快速 走 子 预测 网 络 进行 走 子 演算 ? 通过 这 个 实验 ， 他 们 发 现 随机 走 子 








演算 并 不 是 很 有 效 ， 当 AlphaGo 在 评价 函数 网 络 和 快速 走 子 预测 网 络 之 
间 使 用 50/50 混 合 时 ， 效 果 最 好 。 三 他 们 还 让 AlphaGo 目 我 对 春 了 数 百 万 
盘 棋 ， 以 产生 更 多 的 数据 来 改进 评价 函数 神经 网 络 ， 束 像 特色 多 改进 他 
的 双 陆 棋 神 经 网 络 一 样 。 


在 最 初战 胜 攀 麻 和 李 世 石 后 ，DeepMind 继 续 改 进 AljphaGo。 它 的 一 
个 改进 版 本 在 互联 网 上 和 玩家 进行 了 对 研 ， 这 就 是 我 们 在 本 章 开 头 看 到 
的 那个 名 为 Master 的 神秘 玩家 。 到 2017 年 底 ，DeepMind 对 AlphaGo 进 行 
了 几乎 所 有 方面 的 改进 ， 最 终 推出 了 一 个 名 为 AlphaGo Zero Chal RF 
元 ) 的 版 本 。 它 可 以 在 三 天 《而 不 是 几 个 月 ) 内 进行 训练 ， 对 局 时 只 需 
要 先前 1/10 的 处 理 能 力 。 它 在 对 研 兽 经 与 李 世 石 比赛 的 版 本 时 取得 了 
100 战 全 胜 的 战绩 。 就 像 特 索 罗 的 程序 一 样 ， 尽 管 它 从 零 开 始 学 习 下 
棋 ， 但 它 仍 然 做 到 了 这 一 切 。 











DeepMind 是 如 何 做 出 这 些 改进 的 ? 一 种 方法 是 结合 过 去 几 年 在 其 
他 领域 发 现 的 卷 积 神经 网 络 的 一 些 改进 ， 包 括 在 层 之 间 添 加 “快捷 ” 连 
接 ， 并 改进 训练 网 络 的 方式 。 他 们 还 简化 了 AlphaGo 的 架构 ， 合 并 了 慢 
速 走 子 预测 网 络 和 评价 函数 网 络 ， 并 且 仪 使 用 黑白 棋子 的 位 置 作为 网 络 
的 输入 ， 代 人 奉 了 最 初 的 48 个 特征 平面 。 他 们 充分 提高 了 网 络 的 准确 性 ， 
从 而 无 须 再 使 用 快速 走 子 演算 : 在 慢 速 走 子 演算 阶段 结束 时 ， 他 们 只 需 
运行 目 己 的 评价 函数 神经 网 络 即 可 。 
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Christof Koch, "How the Computer Beat the Go Master, "Scientific 
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AlphaGo 的 局 限 


与 雅 达 利 游戏 智能 体 一 样 ，AlphaGo 也 是 专 为 下 围棋 这 项 特定 任务 
而 设计 的 。 二 者 的 运行 原理 类 似 : 在 搜索 树 中 同 下 深入 〔 雅 达 利 游戏 网 
络 的 例子 中 只 有 一 个 动作 ) 并 使 用 神经 网 络 来 评估 局 面 。 虽 然 AlphaGo 
表现 出 了 类 似 人 关 的 识别 围棋 盘面 特征 的 能 力 ， 但 它 只 能 执行 下 围棋 这 
项 非常 单一 的 任务 。 正 如 OpenAI 三 的 研究 员 唐 杰 Cie Tang) 所 
a: “AlphaGo 不 会 决定 去 买 个 芝士 汉堡 ， 然 后 党 试 接 管 世界 。” 


AlphaGo 不 打算 接管 世界 的 一 个 原因 是 ， 它 的 一 切 都 依赖 于 人 类 ， 
包括 在 棋盘 上 沙子 的 能 力 。 为 了 让 AlphaGo 完 成 走 子 ， 人 类 操作 员 必 须 
通过 计算 机 屏 磋 伍 看 AlphaGo 选 择 了 什么 着 法 ， 然 后 在 棋盘 上 蔡 它 落 
T. 
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〈 曼 无 疑问 ， 这 些 能 力 令 人 印象 深刻 ) ，AlphaGo 并 没有 展现 出 通常 与 
人 类 智能 相关 的 大 多 数 能 力 。 它 无 法 与 瞬息 万 变 的 环境 互动 。 除 了 在 搜 
索 树 的 上 层 汇 总 的 统计 数据 外 ， 它 没有 关于 过 去 事件 的 记忆 ; 除了 模拟 
它 和 它 的 对 手 如 何 走 棋 之 外 ， 它 没有 关于 未 来 事件 的 概念 。AlphaGo 的 
创造 者 与 本 书 中 大 多 数 自 动机 的 创造 者 一 样 ， 他 们 设计 它 是 为 了 解决 一 
个 狭 罕 领域 的 问题 。 同 样 的 道理 ， 飞 机 没有 可 以 担 打 的 翅膀 ，AlphaGo 
没有 记忆 ， 也 没有 能 力 对 实时 环境 做 出 快速 反应 。AlphaGo 是 专门 为 下 
围棋 而 设计 的 ， 因 此 它 只 展现 了 下 围棋 所 需要 的 能 





AlphaGo 击 败 李 世 石 后 不 久 ，DeepMind 宣 布 了 一 个 新 项 目 。 下 一 个 
挑战 是 设计 一 个 能 够 玩 游戏 的 智能 体 ， 这 个 游戏 要 求 该 智能 体 具备 更 多 
通常 与 人 类 智能 相关 的 品质 : 在 有 时 间 限 制 的 条 件 下 做 出 决策 的 能 
寻找 做 出 这 些 决 策 所 需要 的 信息 ， 并 且 在 高 层次 (规划 可 能 影响 长 期 未 


来 事件 的 行动 》 和 低层 次 做 出 内 电 般 迅速 的 反应 ， 其 影响 会 立即 反 
馈 ) 上 共同 做 出 这 些 决 策 。DeepMind 希 望 构建 一 个 可 以 玩 即时 战略 游 
戏 《 星 际 争 霸 》 的 智能 体 。 
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游戏 是 一 个 有 用 的 基准 ， 但 我 们 的 目标 是 人 工 智 能 。 
迈克 尔 * 鲍 林 (Michael Bowl ing) 


阿尔 伯 塔 大 学 教授 三 


: Cade Metz,“In OpenAl’s Universe,Computers Learn to Use Apps Like Humans 
Do,” Wired, December5,2016. 


构建 更 好 的 游戏 机 器 人 


考虑 到 人 工 智 能 界 已 经 找到 了 战胜 围棋 世界 冠军 的 方法 ， 而 围棋 一 
直 被 认为 是 人 工 智 能 所 面临 的 最 困难 的 挑战 之 一 ， 那 么 我 们 在 人 工 知 能 
领域 要 迎接 的 下 一 个 重大 挑战 是 什么 ? 在 这 一 章 中 ， 我 们 将 深入 研究 一 
个 日 蔓 受 到 关注 的 具体 的 开放 问题 ， 即 构建 一 个 可 以 像 最 优秀 的 人 类 玩 
家 一 样 玩 《星际 和 争霸》 这 类 游戏 的 计算 机 程序 的 问题 ， 用 业界 的 术语 来 
说 融 是 构建 一 个 机 需 人 〈bot) 的 问题 。 我 们 还 将 了 解 到 目前 为 止 我 们 
在 本 书 中 看 到 的 哪些 方法 可 用 于 构建 《星际 争霸 》 机 器 人 。 在 进一步 讨 
论 这 个 话题 之 前 ， 我 要 提醒 一 点 ， 我 们 还 没有 完全 掌握 构建 这 些 机 器 人 
的 技术 ， 所 以 你 不 要 期 望 在 这 一 章 结 束 的 时 候 就 知道 该 如 何 做 。 











《星际 争霸 》 是 计算 机 游戏 史上 最 受 欢 迎 的 游戏 之 一 。 它 发 行 于 
1998 年 ， 在 发 行 后 的 10 年 内 销量 超过 1000 万 份 。 三 其 中 它 仅 在 韩国 就 售 
出 了 450 万 份 。 在 辆 国 ， 这 球 游戏 被 认为 是 引 友 该 国 游戏 热 渭 的 原因 ， 
在 职业 体育 场馆 举办 的 游戏 比赛 苋 争 激烈 ， 有 大 量 观 众 到 现场 观看 。 二 
《星际 争霸 》 的 顶级 玩家 都 成 了 偶像 人 物 ， 他 们 会 收 到 “粉丝 ?的 礼物 ， 
最 优 务 的 玩家 会 得 到 答 遇 丰厚 的 合同 ， 成 为 职业 玩家 。 一 位 28 岁 的 世界 
顶级 玩家 获得 了 一 份 为 期 三 年 的 价值 69 万 美元 的 职业 合同 。 三 而 其 他 玩 
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《星际 争霸 》 是 一 球 设 定 在 26 世 纪 的 战争 游戏 。 就 像 国 际 象 棋 一 

样 ， 每 个 玩家 都 指挥 着 一 文 由 不 同 单位 组 成 的 军队 ， 每 种 单位 都 有 其 优 
缺点 。 有 些 单 位 《例如 小 兵 ) 很 弱 ， 不 能 快速 移动 。 有 些 单位 可 以 作为 
坚韧 粗糙 的 步兵 ， 而 有 些 单位 则 可 以 射 弹 或 长 距离 飞行 “请 记 住 ，《 星 
际 争 霸 》 是 在 计算 机 上 玩 的 ， 不 是 在 实体 棋盘 上 玩 的 ) 。 与 国际 象棋 不 
同 ，《 星 际 争 撕 》 是 一 球 即 时 战略 游戏 。 玩 家 不 是 轮流 走 子 ， 而 是 在 一 
个 大 的 战斗 区 域内 实时 指挥 目 己 军队 的 各 个 单位 。 军 队 之 间 的 战斗 残酷 
且 市 答 快 ， 这 给 手 快 的 玩家 市 来 了 优势 。 事 实 上 ，《 星 际 争霸 》 的 顶尖 
人 类 玩家 操作 键盘 和 鼠标 的 速度 通常 超过 每 秒 5 次 。 三 

















《星际 争霸 》 的 另 一 个 有 趣 之 处 在 于 ， 它 要 求 每 个 玩家 都 要 维持 正 
常 的 经 济 运 转 。 为 了 发 展 目 己 的 军队 ， 玩 家 必须 建造 和 升级 不 同类 型 的 
建筑 ， 而 且 建 造 的 顺序 很 重要 。 不 同 的 建筑 允许 玩家 在 上 自己 的 军队 中 创 
建 不 同 技能 的 单位 或 创建 新 的 建筑 ， 所 以 这 有 时 被 称 为 "科技 树 ”: 玩家 
创建 的 科技 树 越 复 杂 ， 他 们 的 技术 就 越 强 。 但 要 建造 和 升级 这 些 建筑 ， 
玩家 必须 从 他 们 的 环境 中 获取 资源 (请 设想 26 世 纪 黄 金 、 木 材 和 石油 的 
等 价 物 ) 。 要 获得 和 保护 建立 这 种 经 济 所 需 的 资源 ， 往 往 需 要 武力 。 因 
此 ， 强 大 的 经 济 产 生 强 大 的 军队 ， 强 大 的 军队 造就 强大 的 经 济 。 








ANS Lv INA, CIS) PERAR E S KAR 
游戏 空间 。 玩 家 可 以 看 到 上 自己 的 单位 或 单位 附近 发 生 了 什么 ， 但 是 在 环 
境地 图 上 看 不 到 目 己 的 单位 以 外 很 远 的 地 方 。 这 意味 着 他 们 必须 浜 出 侦 
察 兵 或 者 找到 其 他 方法 来 了 解 环境 。 因 此 玩家 总 是 在 不 确定 的 情况 下 做 
出 决定 。 玩 家 必须 在 游戏 过 程 中 积极 思考 何 时 以 及 如 何 搜集 情报 。 





下 面 简要 回顾 一 下 我 们 如 何 设计 智能 体 来 玩 国际 象棋 和 围棋 等 策略 


游戏 。 在 这 些 游戏 中 ， 最 优秀 的 智能 体 搜索 数 百 万 个 游戏 状态 ， 并 执行 
评价 函数 来 查找 最 有 可 能 带 来 成 功 结果 的 状态 。 游 戏 搜索 树 的 大 小 ， 以 
及 智能 体 搜索 它 的 能 力 取决 于 两 个 因素 : 树 的 每 个 层次 的 分 六 因子 〈 智 
能 体 在 给 定时 间 内 必须 做 出 选择 的 走 子 选项 的 个 数 ) 和 树 的 深度 (智能 
体 在 一 局 游戏 中 需要 走 多 少 步 棋 ) 。 


围棋 的 分 文 因 子 大 约 是 250，《 星 际 争 霸 》 的 分 文 因子 远大 于 此 。 

在 任何 给 定时 间 ， 玩 家 可 以 选择 移动 一 个 或 多 个 单位 ， 可 以 升级 或 建造 
新 的 建筑 。 保 守 佑 计 ， 游 戏 的 分 文 因子 大 约 为 1 后 面 50 个 0〈 这 个 数字 非 
常 大 ， 因 为 玩家 可 以 同时 移动 他 们 单位 的 任何 子 集 ) 。 三 《星际 争霸 》 
的 时 长 也 比 围棋 要 长 得 多 ， 一 盘 职业 围棋 棋局 大 约 持续 150 步 ， 而 《 星 
际 争 堪 》 是 一 球 即 时 战略 游戏 。 一 局 典型 的 25 分 钟 的 《星际 争霸 》 大 约 
有 36000 个 动作 。 三 这 意味 独 一 局 典型 的 《星际 争霸 》 游 戏 的 搜索 空间 
大 约 是 一 盘 典 型 围棋 棋局 的 101799640 倍 。 为 了 使 游戏 更 具 挑 战 性 ， 
《星际 和 争霸》 玩家 因为 战场 迷 却 而 仅 拥 有 不 完整 的 信息 ， 因 此 国际 象棋 
或 围棋 中 使 用 的 传统 搜索 方法 不 适用 于 《星际 争霸 》。 














换言之 ，《 星 际 争霸 》 对 人 工 智能 领域 提出 了 巨大 的 挑战 。 一 个 可 
以 得 心 应 手 地 玩 《星际 人 争霸》 的 机 器 人 需要 具备 许多 我 们 认为 能 够 定义 
人 类 智能 的 品质 ， 包 括 用 有 限 的 信息 做 出 战略 决策 的 能 力 ， 以 及 实时 应 
对 不 可 预见 情况 的 能 力 。 纽 芬兰 纪念 大 学 的 计算 机 科学 教授 戴 维 : 印 吉 
尔 (David Churchill) Pak AE WAA TE eT FE AY UE” 














自从 戴 维 于 2010 年 前 后 从 本 :韦伯 (Ben Weber) 手中 接手 《星际 争 
霸 》 机 占 人 项 目 之 后 ， 他 就 一 直 在 组 织 《 星 际 争霸》 机 占 人 之 间 的 比 
赛 ， 因 此 我 们 对 这 些 机 器 人 的 开发 进展 有 一 些 了 解 。 从 我 们 掌握 的 情况 
来 看 ， 人 工 智 能 距离 攻 元 《星际 争 竺 》 还 有 很 长 的 路 要 走 。' 二 如 果 我 们 
用 字母 给 《星际 争霸》 机 器 人 评分 的 话 ， 职 业 玩 家 的 得 分 为 A- 到 At+， 
业余 玩家 的 得 分 为 C+ 到 B， 而 《星际 争霸 》 机 堪 人 的 得 分 处 于 D 到 D+ 的 
范围 。 三 但 是 ， 我 们 已 经 取得 了 一 些 进展 。 
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简化 游戏 


让 《星际 争霸》 机 器 人 会 玩 游 戏 的 唯一 微乎其微 的 机 会 在 于 ， 把 它 
们 需要 执行 的 任务 分 解 成 可 管理 的 组 块 。 关 于 这 些 组 块 应 该 是 什么 的 一 
些 核 心思 想来 自 对 职业 人 类 玩家 如 何 玩 游戏 的 仔细 分 析 。 三 我 已 经 将 一 
些 成 功 的 机 器 人 中 反复 出 现 的 思想 组 织 到 图 16.1 所 示 的 架构 中 。 你 可 能 
会 立即 意识 到 ， 我 们 看 到 了 一 个 非常 类 似 于 本 书 开头 的 目 动 轨 驶 汽车 以 
及 玩 雅 达 利 游戏 的 神经 网 络 的 架构 。 相 似 之 处 在 一 定 程度 上 是 因为 我 使 
用 的 图 的 通用 性 (你 几乎 可 以 把 任意 智能 体 放 入 这 样 的 图 中 〉 ， 但 是 我 
们 应 当 回 顾 一 下 某 些 《星际 争霸 》 机 器 人 是 如 何 适 应 这 种 架构 的 。 三 








环境 交互 
( BWAPI ) 





传 感 


(3 分 钟 以 上 ) 
单位 状态 


战术 
(30 秒 到 1 分 钟 ) 


反应 控制 
1 秒 


图 16.1 简化 的 《星际 争霸 》 机 器 人 架构 示例 








这 个 架构 的 最 左 侧 是 智能 体 与 环境 交互 所 经 过 的 层 。 在 自动 构 驶 汽 
车 中 ， 这 一 层 包 含 传感器 和 控制 器 ;在 雅 达 利 游戏 智能 体 中 ， 这 一 层 
与 “街机 学 习 环 境 ” 连 接 。 目 前 为 止 ， 大 多 数 《 星 际 争霸 》 机 器 人 都 通过 
BWAPI (BroodWar 应 用 程序 编程 接口 ) 与 它们 的 虚拟 环境 进行 交互 ， 
BWAPI 是 一 位 名 叫 亚当 : 海 纳 曼 CAdamHeinermann). 的 年 轻 软 件 开发 者 
开发 的 软件 库 〈BroodwWar 是 《星际 争霸 》 的 一 个 扩展 包 ， 也 残 是 一 个 
特定 版 本 ) 。 对 《星际 争 钳 》 机 器 人 而 言 ， 这 个 传 感 和 驱动 层 为 机 器 人 
提供 了 一 种 通过 编程 与 游戏 本 里 进行 交互 的 方式 。 











PE ae AA BEB, FAP AS REISE SiR: 它 总 结 
智能 体 搜 集 到 的 天 于 环境 的 信息 ， 包 括 对 手 的 基地 、 游 戏 中 的 单位 和 整 
个 地 图 的 信息 。 不 同 的 机 器 人 对 这 一 层 的 重视 程度 不 同 。 

















机 器 人 的 “鲁能 ”行为 来 目 架 构 最 右边 的 部 分 ， 我 们 可 以 将 其 分 为 三 
个 层次 。 在 顶层 ， 这 些 机 器 人 推理 战略 : 机 器 人 应 该 建造 哪些 建筑 ， 应 
该 升级 哪些 建筑 ， 以 及 应 该 在 什么 时 候 做 这 些 事 情 。 这 类 战略 决策 需要 
提前 儿 十 分 钟 进行 规划 ， 并 会 对 游戏 产生 直接 的 长 期 影响 ， 因 为 科技 树 
( 即 建筑 及 其 升级 ) 将 直接 影响 机 器 人 的 军队 在 游戏 后 期 的 组 成 和 优 
劣 。 这 个 决 宁 部 分 还 需要 长 期 规划 ， 以 发 展 能 够 文 持 科 技 树 的 经 讲 。 在 
略 低 的 层次 上 ， 机 器 人 会 推理 战术 ， 这 涉及 提前 30 秒 到 1 分 钟 的 计划 : 
智能 体 应 该 把 它 的 建筑 建 在 哪里 ?应 该 何 时 出 兵 到 何 处 作战 ?在 这 三 个 
层次 中 最 低 的 是 反应 屋 ， 它 要 求 在 几 秒 钟 内 做 出 规划 和 反应 。 人 馈送 到 这 
三 个 层次 的 是 来 日 车 事情 报 层 的 关于 环境 的 信息 。 

















现在 ， 这 种 三 层 染 构 并 不 是 我 们 在 自动 驾驶 汽车 上 看 到 的 可 以 用 来 
在 十 字 路 口 导航 的 正式 三 层 架 构 。 例 如 ，《 星 际 争 和 名》 机 右 人 中 的 三 层 
定义 了 军事 指挥 层级 或 一 组 建筑 的 组 织 级 别 。 正 如 我 们 刚才 看 到 的 计算 
机 科学 教授 戴 维 : 印 吉 尔 所 解释 的 那样 :“ 当 在 战略 层次 做 出 决定 时 ， 这 
个 构 染 束 会 同 战 术 单 位 下 达 命 令 ， 命 令 中 只 包括 完成 战术 目标 所 需要 的 
言 轧 。” 三 这 不 同 于 我 们 在 上 自动 当 驶 汽车 中 看 到 的 正式 的 三 层 以 构 ， 因 
为 它 没 有 明确 的 定 序 器 或 大 富翁 棋盘 模块 。 
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实用 《星际 争霸 》 机 器 人 


在 设计 《星际 和 争霸》 机 器 人 方面 ， 还 有 什么 方法 于 有 成 效 呢 ? 回想 
一 下 我 们 在 “实用 主义 理论 ? 队 《〈 参 加 网 飞 竞 赛 的 那 两 个 蝶 无 头绪 的 家 
伙 ) 中 看 到 的 指导 原则 。 还 记得 吗 ,“ 实 用 主义 理论 ” 队 只 有 一 个 目标 : 
磋 得 比赛 。 因 此 ， 他 们 大 眼 于 数量 ， 结 合 数 百 种 模型 和 预测 因 系 ， 完 全 
不 理会 让 网 飞 在 之 后 的 实践 中 复制 他 们 的 方法 有 多 么 不 切实 际 。 他 们 在 
实现 目标 方面 非常 务实 。 











许多 顶级 《星际 争霸 》 机 器 人 的 开发 者 都 遵循 类 似 的 理念 ， 用 能 够 
顾 得 游戏 的 条 略 来 编程 他 们 的 机 器 人 ， 即 便 这 意味 着 他 们 并 没有 创造 出 
我 们 认为 智能 的 机 器 人 。 例 如 ， 一 些 机 器 人 被 编程 为 遭 循 简单 的 rush 策 
上 略 '， 这 意味 着 他 们 会 建立 一 文 由 弱小 的 战斗 单位 组 成 的 小 型 军队 (在 
没有 复杂 科技 树 的 情况 下 可 以 创建 的 唯一 单位 )， 在 对 手 建立 防御 之 前 
发 动 攻击 。 这 类 rush 人 策略 是 合法 的 策略 ， 职 业 人 类 玩家 会 使 用 各 种 各 样 
的 rush 策 略 。 但 要 做 到 这 一 点 ， 需 要 智能 体 齐 循 一 套 简 单 的 规则 ， 完 全 
不 考虑 任何 长 期 策略 ， 然 而 实施 这 些 策 略 的 机 器 人 仍然 远 远 不 能 战胜 人 
类 职业 玩家 。 





邢 吉 尔 利 用 人 工 智 能 领域 的 各 种 工具 ， 设 计 了 一 个 更 复杂 、 更 成 功 
的 《星际 争霸》 机 器 人 。 但 即使 是 这 球 叫 UAlbertaBot 的 机 器 人 ， 有 时 也 
会 输 给 那些 使 用 rush 策 略 的 机 器 人 。 有 一 次 ， 他 研究 了 对 手 的 机 器 人 策 
略 ， 并 调整 了 UAlbertaBot， 以 增强 对 这 类 策略 的 防御 。 这 招 奏效 了 一 有 段 
时 间 ，UAlbertaBot 在 比赛 中 一 度 名 列 前 茅 ， 直 到 更 多 的 苋 争 对 手 出 现 ， 
他 们 有 自己 独特 的 rsh 策略 ;， 那 时 ， 印 吉尔 正 忙于 成 为 一 名 教授 ， 无 暇 
调整 他 的 机 器 人 来 对 付 这 些 新 策略 。 (他 关于 UAlbertaBot 的 大 部 分 工作 
都 是 他 在 阿尔 伯 塔 大 学 读 研究 生 的 时 候 完 成 的 。) 





我 们 可 以 看 出 ， 即 便 最 好 的 《星际 争霸 》 机 器 人 也 很 糟糕 ， 因 为 它 
们 仍然 有 “ 阿 喀 琉 斯 之 中 "。 这 有 时 会 导致 一 些 机 器 人 之 间 出 现 奇特 的 前 
刀 一 石头 一 布 的 循环 ， 如 网 16.2 所 示 。 几 年 前 ，SkyNet 与 其 他 机 器 人 相 
比 非常 优秀 ， 它 有 80% 的 概率 能 战胜 AIUR。AIUR 也 很 不 错 ， 和 其 他 大 
多 数 机 器 人 一 样 ， 它 通常 会 战胜 Xelnaga。Xelnaga 使 用 了 我 们 上 面 看 到 
的 rush 策 略 : 它 会 攻击 对 方 的 兵 〈 可 以 建造 建筑 和 搜集 资源 的 单位 ) 。 
这 种 策略 在 对 付 大 多 数 机 器 人 时 表现 不 佳 ， 但 它 又 是 SkyNet 的 一 个 特有 
的 软肋 ， 这 意味 着 Xelnaga 有 大 约 70% 的 概率 能 战胜 优秀 的 SkyNet! 三 
这 样 的 循环 完全 有 可 能 发 生 在 顶级 围棋 或 国际 象棋 棋 手 之 间 ， 但 这 种 现 
象 出 现在 最 优秀 的 《星际 争霸 》 智 能 体 之 间 ， 特 别 尖锐 地 暴露 出 了 它们 
目前 的 弱点 。 
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图 16. 2 2011 年 《星际 争霸 》 机 器 人 比赛 中 的 剪刀 一 石头 一 布 的 循环 。 在 比赛 中 ， 
Xelnaga 通 常会 战胜 SkyNet，SkyNet 通 常会 战胜 AIUR， 而 AIUR 通 常会 战胜 Xelnaga 


如 果 以 前 玩 过 这 类 游戏 ， 你 肯定 对 战 过 计算 机 ， 也 就 是 说 你 和 机 器 
人 玩 过 。 所 以 你 可 能 会 想 : 如 果 创 建 玩 《星际 争霸 》 这 类 游戏 的 机 器 人 
如 此 困难 ， 为 什么 计算 机 还 是 如 此 难以 战胜 ?邱吉尔 对 此 并 不 赞同 。 他 
解释 说 : “因为 即时 战略 人 工 智 能 很 难 变 得 智能 。 而 现实 游戏 中 的 机 器 
人 经 常 作 整 ， 以 显得 比 实际 更 强 。” 你 从 市 场 上 买 来 的 软件 中 的 机 器 人 





的 目标 是 为 人 类 玩家 提供 有 趣 且 有 吸引 力 的 体验 ， 这 并 不 是 客观 上 的 优 
秀 。 三 例如 ， 在 东 些 情况 下 ， 计 算 机 可 以 看 到 整个 游戏 地 图 ， 没 有 战场 
IBS bas A HY HE eK BE VY ARIES. iEAGCEFEXEUUH S6 A Bl 
战场 ， 但 这 只 是 把 戏 而 已 ， 类 似 于 下 国际 象棋 的 “土耳其 人 ”使 用 的 仗 
俩 ， 其 目的 是 让 它们 看 起 来 比 实际 更 了 腾 明 。 二 它们 的 集 略 同样 简单 : 例 
如 ， 在 给 定 的 层次 上 ， 计 算 机 可 能 有 一 个 脚本 化 的 〈 即 预定 义 的 ) 构建 
树 ， 其 中 包含 非 第 简单 的 规则 来 处 理 异 第 。 














事实 上 ， 脚 本 化 的 构建 规则 甚至 在 “优秀 ”的 机 器 人 中 也 很 常见 。 当 
印 吉尔 和 他 的 合作 者 创建 UAlbertaBot 时 ， 他 们 首先 构建 了 框架 ， 用 简单 
的 脚本 化 规则 填充 其 不 同 的 组 件 ， 如 战略 层 、 战 术 层 和 反应 层 。 这 种 想 
法 是 创建 一 个 可 以 完整 地 玩 完 一 局 《星际 争霸 》 的 机 器 人 人， 即便 它 玩 得 
很 差 。 然 后 ， 一 旦 框架 就 位 ， 他 们 就 可 以 继续 改进 各 个 组 件 ， 用 可 以 探 
索 开发 科技 树 的 最 佳 顺 序 的 组 件 取 代 脚 本 化 的 “生产 模块 ”( 在 这 方面 这 
些 组 件 已 经 超过 了 人 类 ) ， 用 复杂 的 战斗 模拟 系统 取代 他 们 的 “战斗 指 
挥 官 "等 。 三 随 着 《星际 争霸 》 机 器 人 不 断 改 进 ， 这 些 独立 的 模块 很 可 
能 会 得 到 改进 ， 而 整体 架构 不 变 。 或 者 ， 架 构 是 否 会 大 不 相同 ， 我 们 也 
未 可 知 。 
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OpenAI 5 (DOTA2) 





很 多 《星际 争霸 》 玩 家 都 很 熟悉 《远古 守卫 2》 CFE 
《DOTA2》) 这 款 游 戏 ， 这 是 一 秋 与 《星际 争霸 》 有 很 多 相似 之 处 的 
夺 旗 游戏 。 要 掌握 《DOTA2》， 玩 家 必须 控制 一 个 “英雄 ”角色 ， 它 可 以 
在 地 图 上 移动 、 攻 击 对 手 、 施 展 法 术 等 ， 目 标 是 摧毁 对 手 的 “远古 遗 
迹 ”"， 这 种 建筑 需要 玩家 不 惜 一 切 代 价 去 保护 。 


只 业 《DOTA2》 选 手 每 年 范 争 2400 万 美元 的 比赛 奖金 。 
《DOTA2》 过 去 的 奖金 总 额 为 1.32 亿 美元 ， 远 远 超过 《星际 争霸 》“ 微 
不 足 道 ”的 700 万 美元 ， 甚 至 超过 《星际 争霸 2》 的 2500 万 美元 。 训 无 疑 
问 ， 这 款 游 戏 很 有 挑战 性 : 设计 玩 《DOTA2》 的 机 器 人 就 像 设计 玩 
《星际 争霸 》 的 机 器 人 一 样 ， 你 必须 能 够 理解 一 个 拥有 非常 大 的 搜索 空 
闻 的 环境 。 三 














我 们 在 前 几 间 中 简要 介绍 过 的 埃 隆 : 马 斯 元 ， 他 发 起 了 研究 实验 室 
OpenAI， 目 的 是 “构建 安全 的 人 工 智能 ， 并 确保 人 工 智 能 带 来 的 福利 被 
尽 可 能 广泛 和 均匀 地 分 配 ”。 三 2017 年 8 月 ，OpenATI 宣 布 他 们 已 经 创造 
出 了 能 够 在 一 对 一 的 有 限 版 本 《DOTA2》 游 戏 中 击败 人 类 顶级 玩家 的 
机 器 人 。 他 们 究竟 如 何 创 造 出 一 个 可 以 在 如 此 大 的 空间 中 进行 搜索 的 机 
器 人 ? 


正如 OpenAI 的 一 位 研究 人 员 解 释 的 那样 ， 答 案 是 他 们 并 没有 使 用 
搜索 。OpenAI 使 用 的 方法 结合 了 我 在 本 章 和 有 关 神 经 网 络 的 章节 中 介 
绍 的 工具 ， 但 是 它们 的 架构 没有 使 用 像 MCTS 这 样 的 搜索 算法 。 二 


为 了 玩 《DOTA2》，OpenAI 的 一 个 研究 小 组 创建 了 一 个 神经 网 
络 ， 孢 像 我 们 在 这 本 书 前 面 看 到 的 两 个 网 络 一 样 。 乍 一 看 ， 它 有 点 像 玩 


雅 达 利 游戏 的 网 络 。 还 记得 吗 ， 雅 达 利 游戏 智能 体 一 遍 又 一 遍地 评估 它 
的 网 络 ， 选 择 网 络 指示 的 会 得 到 最 高 时 间 调 整 奖 励 流 《〈 即 巧克力 ) 的 动 
作 。 在 每 个 时 间 步 长 ， 雅 达 利 网 络 的 输入 都 是 一 个 同 量 ， 这 个 向 量 总 结 
了 4 个 最 新 的 屏幕 截图 中 的 屏幕 像素 ， 而 输出 表示 了 采取 每 个 动作 的 预 
期 未 来 奖励 。 在 图 16.3 中 ， 你 可 以 看 到 《DOTA2》 的 架构 与 此 类 似 ， 它 
的 输出 神经 元 决定 了 智能 体 应 该 采取 哪些 操作 。 与 雅 达 利 游戏 网 络 一 
样 ，《DOTA2》 网 络 的 输入 也 是 对 游戏 当前 状态 进行 编码 的 特征 列 
表 。 与 玩 双 陆 棋 的 神经 网 络 和 AlphaGo 一 样 ， 它 们 的 神经 网 络 通过 自我 
对 战 得 到 改进 。 三 

输出 层 (操作 ) 


























状态 
输入 层 〈 操 作 ) 


时 间 
图 16.3 在 《DOTA2》 中 击败 了 顶级 人 类 玩家 的 机 器 人 架构 。 智 能 体 在 每 个 时 间 点 运 
行 一 个 神经 网 络 ， 这 个 网 络 的 输入 是 总 结 了 当前 环境 的 特征 向 量 ， 然 后 网 络 输出 决 
定 智能 体 将 会 选择 的 操作 的 变量 。 智 能 体 还 记录 状态 ， 把 状态 从 一 个 时 间 点 传递 到 
下 一 个 时 间 点 。 这 个 状态 充当 了 智能 体 的 一 种 “记忆 ” 


但 这 些 网 络 之 间 存 在 一 些 重要 的 区 别 。 首 先 ，《DOTA2》 网 络 的 


许多 输入 特征 都 是 由 人 工 制作 的 ， 编 码 的 内 容 包 括 当前 控制 的 单位 在 地 
图 上 的 位 置 和 地 图 的 细节 。 其 次 ， 也 是 更 重要 的 一 点 ，《DOTA2》 网 
AH. © 





WWIE, MEA A Dis RP aS TCI a ee eK, Dad CAURHHLE 
SL) . (BRISA IL) m EAE REAMER: 探索 一 个 非 
常 大 的 环境 ， 并 记 住 它 最 近 做 了 什么 。 但 是 雅 达 利 游戏 网 络 没 有 记忆 ， 
所 以 即便 它 有 很 多 经 验 ， 也 在 游戏 中 表现 不 佳 。 那 么 ， 我 们 该 如 何 赋予 
智能 体 记 忆 ? 





在 第 11 章 中 ， 当 研究 可 以 为 图 像 生成 字幕 的 网 络 时 ， 我 们 看 到 了 关 
于 神经 网 络 的 记忆 单元 的 暗示 。 还 记得 吗 ， 那 些 网 络 能 够 记录 实时 说 出 
口 的 话语 ， 因 为 它们 是 RNN。RNN 中 的 单元 彼此 捉 联 连接 : 一 个 循环 
单元 的 输出 状态 被 用 作 馈 入 下 一 个 循环 单元 的 输入 状态 。 网 络 中 的 每 个 
单元 检查 其 状态 和 任何 其 他 输入 ， 产 生 一 些 输出 值 ， 更 新 状态 ， 然 后 将 
状态 发 送 到 序列 中 的 下 一 个 单元 。 








《DOTA2》 网 络 采 用 了 同样 的 思想 。 与 雅 达 利 游戏 网 络 一 样 ， 
《DOTA2》 网 络 也 在 不 断 地 循环 运行 ， 接 收 输入 特征 并 产生 一 些 输出 
值 。 但 它 也 是 RNN: 它 的 输出 之 一 是 状态 ， 它 把 这 个 状态 传递 给 网 络 中 
的 下 一 个 单元 使 用 。 当 网 络 运行 时 ， 它 使 用 这 个 状态 向 量 “ 记 忆 ? 事 情 。 











《DOTA2》 机 器 人 远 非 完美 。 首 先 ， 仅 赁 记忆 并 不 能 解决 所 有 问 
题 。 被 赋予 记 忆 的 雅 达 利 游戏 智能 体 仍然 无 法 攻克 《蒙特 祖玛 的 复 
仇 》。 获 胜 后 ，OpenAI 举 办 了 一 个 会 议 ， 让 其 他 玩家 挑战 他 们 的 
《DOTA2》 机 器 人 ， 这 些 玩家 在 程序 中 发 现 了 一 些 明 显 的 致命 弱点 ， 
就 像 人 们 在 《星际 争霸 》 机 器 人 上 看 到 的 一 样 。 但 是 ， 这 个 网 络 击败 了 
世界 上 几 位 顶级 的 玩家 ， 让 我 们 距离 创造 出 能 在 标准 5 对 5 版 本 的 
《DOTA2》 中 与 人 类 竞争 的 机 器 人 又 近 了 一 步 ， 同 时 也 为 我 们 带 来 了 
一 些 对 设计 出 成 功 的 《星际 争霸 》 机 器 人 很 有 价值 的 想法 。 三 
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为 了 看 到 《星际 争霸 》 机 器 人 未 来 的 一 个 可 能 的 发 展 方 同 ， 让 我 们 
回 到 本 书 中 出 现 过 的 一 个 人 物 : DeepMind 的 创始 人 杰 米 斯 : 哈 萨 比 斯 。 
虽然 杰 米 斯 加 入 《星际 争霸 》 机 器 人 领域 比较 晚 ， 但 在 创立 DeepMind 
之 前 ， 他 就 对 这 款 游 戏 产 生 了 兴趣 。 杰 米 斯 发 现 他 的 一 位 同事 是 一 名 
《星际 争霸》 高手 玩家 ， 于 是 对 这 位 同事 屡 战 屡 胜 的 能 力 非 常 着 迷 。 另 
一 位 同事 回忆 说 : 











杰 米 斯 想 要 战胜 这 个 家 伙 。 他 每 晚 都 把 自己 和 那个 家 伙 锁 在 一 个 房 
间 里 。 他 会 为 那个 家 伙 设 置 障碍 ， 让 他 在 没有 鼠标 或 单 手 的 情况 下 玩 游 
戏 ， 这 样 便 可 以 准确 地 分 析 他 的 哪些 操作 让 他 变 得 出 色 。 这 有 点 像 一 个 
人 走 上 拳击 台 被 找 了 一 顿 ， 然 后 他 每 晚 都 回来 挨 摘 。 这 显示 了 他 令 人 难 
以 置信 的 求 胜 欲望 。 三 


最 近 ， 杰 米 斯 将 DeepMind 的 一 些 工作 转 同 了 开发 具有 竞争 力 的 
《星际 争霸 》 机 器 人 。DeepMind 和 《星际 争霸 》 背 后 的 暴雪 公司 
(Blizzard) 宣布 了 一 项 合作 ， 两 家 公司 将 开发 并 发 布 一 个 供 机 器 人 玩 
《星际 和 争霸 2》 的 官方 界面 ， 以 及 一 个 让 开发 者 创建 目 己 的 “ 谍 程 的 环 
境 ， 从 而 让 机 器 人 以 更 有 条 理 的 方式 学 习 。 运 


DeepMind 雇 定 将 目标 转向 《星际 争霸 》， 其 背后 的 一 件 趣 事 是 ， 
阿尔 伯 塔 大 学 的 研究 人 员 早 在 10 年 前 就 开始 研究 这 个 问题 。 还 记得 吗 ， 
戴 维 : 印 吉尔 在 阿尔 伯 塔 大 学 学 习 的 时 候 ， 正 在 进行 《星际 争霸 》 机 器 
人 设计 方面 的 开创 性 研究 。 单 独 来 看 ， 这 个 事实 可 能 不 足 为 奇 ， 有趣 的 
是 ， 阿 尔 伯 塔 大 学 对 整个 人 工 智 能 领域 ， 特 别 是 对 DeepMind 的 工作 产 
生 了 深远 的 影响 。 正 如 我 们 在 第 7 章 中 看 到 的 ， 阿 尔 伯 塔 大 学 的 研究 人 
员 开 发 了 “街机 学 习 环 境 ”"， 这 为 DeepMind 提 供 了 一 种 可 以 让 雅 达 利 游戏 











智能 体 与 游戏 环境 交互 的 方式 。DeepMind 开 发 AlphaGo 的 团队 的 几 位 关 
键 研 究 人 员 正 是 在 阿尔 伯 塔 大 学 开始 了 计算 机 围棋 领域 的 研究 。 阿 尔 伯 
塔 大 学 拥有 数位 在 人 工 智 能 的 各 个 领域 都 处 于 世界 领先 地 位 的 专家 ， 其 
中 包括 被 誉 为 “强化 学 习 之 父 ” 的 理 查 德 : 院 顿 (Richard Sutton) . Mil 
对 这 个 领域 的 贡献 之 一 ， 就 是 雅 达 利 游戏 智能 体 用 来 从 动作 中 进行 学 习 
的 算法 ， 即 用 于 离线 学 习 的 算法 。 








如 果 我 们 能 攻克 《星际 争霸 》， 这 是 合意 味 着 我 们 就 能 攻克 智能 ? 
答案 很 简单 ， 不 能 。《 星 际 争 霸 》 并 没有 涉及 人 类 智能 的 许多 方面 ， 包 
括 人 类 从 全 新 的 、 非 结构 化 的 环境 中 理解 并 得 出 结论 的 能 








几 位 著名 的 人 工 智 能 研究 人 员 在 最 早 的 一 篇 关于 计算 机 国际 象棋 的 
论文 中 写 道 :“ 如 来 一 个 人 能 设计 出 一 台 成 功 的 国际 象棋 机 器 ， 那 么 他 
似乎 就 潜入 了 人 类 努力 的 核心 。” 三 而 现在 距离 我 们 设计 出 成 功 的 国际 
象棋 机 器 已 经 过 去 了 20 年 ， 但 我 们 仍然 不 清楚 我 们 是 否 比 “ 深 珀 ”战胜 加 
里 ' 卡 斯 由 罗 夫 之 前 更 接近 “人 类 努力 的 核心 ”， 即 便 现 在 我 们 已 经 知道 
如 何 设计 一 个 能 够 出 色 地 下 国际 象棋 的 系统 了 。 同 样 的 粗略 评估 也 适用 
于 计算 机 围棋 和 《星际 争霸 》 机 右 人 。 创 造 出 能 够 高 水 平地 玩 《 星 际 争 
霸 》 的 机 器 人 可 能 是 一 个 同样 引 人 注 目 却 很 狭隘 的 结 末 。 然 和 而， 我 们 在 
这 个 过 程 中 获得 的 工具 和 架构 一 一 新 的 搜索 算法 、 新 的 感知 算法 和 新 的 
LED] AE. Re CERNI. 
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17 50 年 后 或 更 遥远 的 未 来 


人 工 和 鲁能 起 起 伏 伏 的 及 展 过 程 


既然 我 们 已 经 创造 出 可 以 在 识别 图 像 中 的 物体 、 转 录 人 类 语言 录音 
以 及 下 围棋 等 任务 中 表现 超过 人 类 的 数字 上 自动 机 ， 那 么 在 未 来 50 年 里 ， 
我 们 还 能 期 竺 它们 做 什么 呢 ? 很 多 。 但 在 我 们 推测 下 一 步 的 发 展 方向 之 
前 ， 让 我 们 先 简 要 地 回顾 一 下 我 们 已 经 取得 了 多 大 的 进展 。 





在 过 去 的 20 年 里 ， 许 多 在 人 工 智能 领域 引起 缀 动 的 想法 与 半 个 世纪 
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似 在 飞速 发 展 ， 神 经 网 络 得 到 了 改进 ， 国 际 象棋 和 围棋 等 游戏 的 算法 得 
到 了 开发 ， 行 业 会 议 上 的 成 果 以 及 随 着 微 处 理 器 的 出 现 而 呈 指 数 级 增长 
的 硬件 全 都 令 人 感到 兴奋 ， 人 工 智 能 会 议 似乎 场 场 爆 满 一 -所 有 这 一 切 
都 发 生 在 人 工 智 能 领域 进入 一 个 被 称 为 “人 工 智 能 寒冬 ”的 黑暗 时 期 之 
前 。 后 来 人 工 智能 研究 的 资金 枯竭 了 几 十 年 。 人 工 智 能 甚至 成 为 一 些 研 
究 人 员 口 中 的 笑柄 。 三 在 20 世 纪 80 至 90 年 代 的 大 部 分 时 间 里 ， 这 种 恐慌 
一 直 在 持续 ， 直 到 人 工 智能 领域 在 过 去 20 年 里 重 获 新 生 。 











换言之 ， 我 们 在 世纪 之 交 前 儿 所 看 到 的 进步 值得 注意 ， 但 这 并 不 是 
一 次 和 弧 立 的 技术 进步 ， 即 使 在 人 工 乔 能 领域 也 是 如 此 。 这 古人 工 智 能 更 
长 期 的 持续 发 展 的 一 部 分 ， 是 一 系列 起 起 伏 伏 的 发 展 过 程 。 





我 们 的 祖先 在 18 世 纪 创 造 的 目 动机 也 是 路 越 数 十 年 技术 持续 发 展 的 
一 部 分 。 在 欧洲 ， 机 械 师 在 18 世 纪 和 19 志 纪 发 明了 上 自动 机 ， 但 这 一 趋势 
在 全 球 范围 内 持续 的 时 间 要 长 得 多 。 早 在 公元 9 世纪 ， 波 斯 三 兄 第 就 发 
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ATUL EER. 三 我 们 可 以 预计 ， 现 代数 字 自 动机 也 会 遵循 同样 漫长 的 
发 展 轨 迹 ， 中 间 会 出 现 技 术 俘 滞 的 低谷 时 期 。 
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如 何 复制 这 本 书 中 的 成 功 





我 们 看 到 的 许多 机 器 表面 上 看 起 来 可 能 不 同 ， 但 它们 有 很 多 共同 之 
处 。 分 类 圳 使 这 些 智 能 机 需 能 够 感知 环境 。 有 限 状态 机 和 RNN 使 它们 能 
够 记录 周围 发 生 的 事情 “它们 做 了 什么 ， 正 在 做 什么 ， 还 需要 做 什 
么 ) ， 并 且 只 关注 环境 中 最 显著 的 部 分 。 搜 索 算法 使 它们 能 够 用 蛋 力 在 
数 以 百 万 计 的 选项 中 找到 最 好 的 结果 。 强 化 学 习 使 它们 有 能 力 从 经 验 中 
学 习 。 然 后 ， 这 些 统计 元 素 通 过 非常 相似 的 架构 组 合 到 我 们 看 到 的 机 器 
中 ， 这 些 机 器 可 以 目 动 驾驶 ， 预 测 人 类 对 电影 的 偏好 ， 回 答 《 人 危险 边 
缘 》 的 问题 ， 并 以 怀 人 的 精确 度 玩 策略 游戏 。 




















但 这 些 统计 机 器 的 设计 只 是 故事 的 一 部 分 。 所 有 这 些 机 器 痢 需 要 长 
时 间 的 、 组 织 有 序 的 人 类 工作 。 本 书 中 最 小 的 成 功 团 队 是 创建 [BM 
的 “ 深 玛 ”的 团队 ， 它 只 由 几 个 人 组 成 ， 在 十 几 年 的 工作 中 ， 它 像 一 文 揪 
深 乐 队 一 样 ， 成 员 进 进出 出 。 但 最 终 ,“ 深 到 ”*” 用 了 整整 10 年 时 间 攻 元 了 
国际 象棋 。 我 们 看 到 的 许多 其 他 团队 开发 产品 花 的 时 间 更 短 ， 但 那些 团 
队 的 规模 要 大 得 多 ， 通 第 有 几 十 名 研究 人 员 和 工程 师 在 一 个 项 目 上 工作 
一 年 或 更 长 时 间 ， 一 般 会 达到 数 十 或 数 百 人 年 三 的 研究 和 开发 。 这 需要 
人 类 对 团队 的 工作 进行 仔细 周密 的 管理 。 





塞 巴 斯 幕 安 - 特 龙 在 自动 驾驶 汽车 斯 坦 利 “组 织 工作 ”方面 的 经 验 ， 
为 这 样 一 支 高 效 团队 树立 了 卓越 的 标准 。 有 时 ， 他 需要 做 出 艰难 但 必要 
的 决定 ， 告 诉 队员 他 们 在 项 目 中 埋头 苦 干 了 几 个 月 的 工作 不 会 出 现在 最 
终 的 机 器 人 中 。 但 他 精心 挑选 的 团队 成 员 认识 到 ， 这 是 为 了 项 目的 利 
益 。 三 对 他 们 而 言 ， 胜 利 是 集体 努力 的 结果 ， 包 括 领导 者 在 内 的 每 个 人 
都 做 出 了 牺牲 。 特 龙 解释 道 ; 


在 项 目的 这 个 阶段 ， 核 心 团队 中 的 每 个 人 都 完全 理解 与 团队 合作 意 


味 着 什么 。 为 团队 准备 午餐 和 编写 尖端 软件 一 样 高 尚 。 直 到 今天 ， 对 每 
一 位 团队 成 员 都 愿意 做 任何 我 要 求 他 们 做 的 事情 ， 我 依然 感到 叹服 。 我 
试 着 以 身 作 则 。 我 个 人 的 亮点 是 花 了 一 天 的 时 间 用 聚 所 乙烯 管道 制作 了 
一 个 坦克 陷阱 。 我 把 三 根 管道 挫 在 一 起 后 ， 我 的 团队 发 现 它 的 表面 与 生 
锈 的 金属 不 够 相似 。 于 是 我 回 到 商店 去 买 喷漆 ， 然 后 花 了 几 个 小 时 涂 上 
油漆 和 泥土 ， 让 陷阱 看 起 来 酷似 “二 战 ” 时 的 坦克 陷阱 。 这 并 不 是 我 来 
斯 坦 福 大 学 的 工作 职责 。 神 奇 的 是 ， 这 个 弄 得 我 两 手 脏 分 分 ， 并 让 我 在 
没有 任何 科学 价值 的 世俗 事物 上 花费 了 大 把 时 间 的 工作 ， 却 令 我 感到 满 
AS. NX) 


如 果 这 些 团队 没有 融入 工程 师 和 科学 家 广泛 分 享 知 识 的 更 大 的 社区 
中 ， 它 们 也 不 可 能 成 功 。 这 些 社区 是 在 DARPA 无 人 车 挑战 赛 和 网 飞 奖 
等 比赛 中 成 立 的 ， 但 对 于 像 AlphaGo 这 样 的 项 目 也 是 如 此 。 虽 然 
AlphaGo 是 由 一 家 私营 公司 的 大 约 20 名 员工 创建 的 ， 但 AljphaGo 中 的 许 
多 思想 (例如 MCTS、 评 价 函数 、 强 化 学 习 和 深度 神经 网 络 ) 都 是 在 
DeepMind 研 究 计 算 机 围棋 问题 之 前 的 几 十 年 被 开发 出 来 的 。 这 些 项 目 
中 的 大 多 数 之 所 以 成 功 ， 不 仅 因为 它们 是 由 拥有 明确 目标 和 雄厚 资金 的 
大 型 工程 团队 推动 的 ， 还 因为 让 它们 得 以 产生 的 想法 是 由 公共 资助 的 研 
完 社区 酝酿 出 来 的 ， 社 区 提供 了 几 十 年 来 文 持 研究 和 实验 的 集体 智慧 。 
私人 资助 的 项 目 其实 也 是 如 此 。 例 如 ，AlphaGo 的 一 些 核心 研究 人 员 在 
阿尔 伯 塔 大 学 窑 圳 头角， 而 IBM 的 “ 沃 森 * 也 从 学 术 界 吸收 了 大 量 人 才 和 
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沃尔特 : 艾 萨 克 森 (Walter Isaacson) 在 他 的 《创新 者 》 一 书 中 也 得 
出 了 类 似 的 结论 。 他 指出 ， 和 凭空 解 决 一 个 雄心 过 动 的 问题 非常 困难 。 在 
计算 机 的 历史 上 ， 几 平 没 有 一 个 重大 的 突破 是 由 发 明 者 在 他 的 车 库 里 独 
自 完 成 的 。 人 工 智 能 和 机 器 学 习 的 进步 也 是 如 此 。 





这 是 否 意味 着 ， 如 采 一 个 单干 的 研究 人 员 没 有 庞大 的 预算 和 一 个 研 
守 团 队 ， 就 不 应 该 费心 去 开始 一 个 项 目 ? 完全 不 是 ， 但 是 研究 人 员 中 途 


加 入 或 组 织 起 一 个 更 大 的 工作 团队 仍然 是 有 用 的 。 例 如 ， 网 飞 奖 竞赛 中 
那个 名 为 “实用 主义 理论 ”的 团队 一 开始 只 有 两 个 曼 无 头绪 的 家 伙 。 但 他 
们 和 仔细 研究 了 最 好 的 团队 所 做 的 工作 ， 这 使 他 们 在 社区 中 迅速 刚 起 ， 并 
加 入 了 最 终 获胜 的 团队 。 创 建国 际 象棋 程序 “ 深 征 ”的 团队 最 初 规模 也 很 
小 ， 但 最 终 ， 团 队 成 员 加 入 了 IBM， 在 接 下 来 的 8 年 里 ， 他 们 继续 开 
发 “深蓝 ”"， 最 终 战 胜 了 加 里 : 卡 斯 帕 罗 夫 。 归 根 结 底 ， 所 有 这 些 项 目 都 
是 从 一 个 有 想法 的 人 开始 的 。 











有 时， 有 想法 的 人 甚至 不 需要 解决 问题 就 能 产生 影响 。 正 如 我 们 所 
看 到 的 ， 他 们 可 以 组 织 一 场 苋 赛 ， 误 励 研 究 人 员 围 绕 共 同 的 目标 团结 起 
来 。 这 些 竞 赛 是 否 可 能 并 不 总 是 促进 进步 ， 而 只 是 让 更 多 人 了 解 人 们 已 
经 取得 的 进步 ? 这 种 情况 有 时 可 能 会 发 生 ， 但 网 飞 奖 是 一 个 杰出 的 例 
子 ， 这 场 竞 赛 显然 为 一 个 领域 增强 了 动力 。 


网 飞 在 筹划 竞赛 时 做 出 了 几 个 重要 的 决定 ， 这 可 以 作为 未 来 竞赛 组 
织 者 的 榜样 。 首 先 ， 他 们 发 布 到 社区 的 数据 集 庞 大 到 足够 有 价值 ， 它 的 
规模 是 其 他 同类 公共 数据 集 的 100 倍 ， 它 也 足够 有 和 针对 性 ， 而 且 网 飞 已 
经 把 它 清理 得 足够 好 ， 易 于 使 用 。 其 次 ， 网 飞身 获奖 者 提供 了 一 大 笔 现 
金奖 励 。 他 们 还 为 大 奖 选 择 了 一 个 很 好 的 目标 ，10% 的 进步 对 参赛 队伍 
而 言 是 一 个 颇 有 难度 但 并 非 不 可 能 实现 的 目标 。" 三 他 们 围绕 这 个 项 目 创 
建 了 一 个 活跃 的 社区 ， 提 供 了 一 个 在 线 论 坛 ， 参 赛 者 可 以 在 这 个 论坛 上 
分 享 想法 ， 排 行 榜 可 以 激发 人 们 的 兴奋 情绪 。 最 后 ， 网 飞 要 求 获奖 者 在 
获得 进步 奖 或 大 奖 之 后 撰写 报告 ， 这 些 报告 被 社 区 成 员 广 泛 阅 读 ， 帮 助 
研究 人 员 继 续 前 进 。 三 











竞赛 的 好 处 在 于 ， 它 可 以 改变 研究 界 投入 时 间 的 方式 ， 其 中 一 种 方 
法 是 使 研究 标准 化 。 我 们 在 金融 市 场 上 也 看 到 了 同样 的 情况 : 公开 交易 
的 证 券 是 可 互 换 的 ， 这 也 就 是 说 ， 可 相互 交换 意味 着 它们 可 以 被 客观 地 
评估 、 定 价 ， 最 终 可 以 相互 比较 。2012 年 ImageNet 挑 战 赛 就 受益 于 此 ， 
在 那 次 比赛 中 ， 一 个 神经 网 络 训 无 争议 地 赢得 了 胜利 。 由 于 参加 比赛 的 








所 有 选手 都 按照 相同 的 标准 进行 评 佑 ， 因 此 很 明显 ， 神 经 网 络 是 公平 的 
获胜 者 。 其 他 团队 立即 加 入 了 深度 学 习 的 潮流 ， 在 随后 的 几 年 里 ， 顶 尖 
参赛 者 提 区 的 作品 中 都 使 用 了 深度 卷 积 神经 网 络 。 三 虽然 2012 年 的 优胜 
团队 以 较 大 优势 获胜 ， 但 2013 年 有 9 文 团队 战胜 了 前 一 年 的 优胜 团队 ， 
并 在 随后 的 几 年 里 取得 了 迅速 的 进步 。 


1. 


2. 


4. 


6. 














人 年 是 衡量 工作 量 的 单位 ，1 个 人 工作 1 年 是 1 人 年 。 一 一 译 者 注 
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数据 的 普遍 使 用 





在 我 们 所 看 到 的 统计 机 器 的 发 展 过 程 中 ， 男 一 个 反复 出 现 的 主题 是 
它们 对 实验 和 数据 的 普 裔 使用。 在 条 些 情况 下 我 们 可 以 获得 大 量 的 数 
据 ， 因 为 这 些 数据 是 由 热情 的 极 客 玩家 搜集 整理 的 。 我 们 在 围棋 《在 线 
对 局 棋谱 会 被 记录 下 来 ) 和 《危险 边缘 》“〈“ 粉 丝 ? 从 电视 节目 中 搜集 问 
题 ) 这样 的 游戏 中 看 到 了 这 一 点 。 在 力 一 些 情况 下 ， 学 术 研 究 人 员 和 公 
司 会 把 广泛 的 、 标 记 民 好 的 数据 集 放 在 一 起 。 








对 于 其 他 情况 ， 研 究 人 员 找 到 了 创建 目 己 的 数据 的 方法 。 堆 巴 斯 带 
安 : 特 龙 和 他 的 斯 坦 福 大 学 团队 用 一 辆 装 有 传 感 占 的 汽车 为 他 们 的 地 形 
探测 分 类 器 收集 训练 数据 。 雅 达 利 游戏 神经 网 络 在 “街机 学 习 环 境 ” 中 玩 
了 数 百 万 局 游戏 ， 以 此 收集 提升 游戏 水 平 所 需 的 数据 。 而 AlphaGo、 
《DOTA2》 机 器 人 和 双 陆 棋 程 序 背后 的 创造 者 则 让 他 们 的 程序 自我 对 
战 ， 这 样 他 们 就 可 以 创建 自己 的 训练 数据 了 。 这 些 游 戏 程 友 收 集 的 数据 
量 所 面临 的 唯一 瓶颈 ， 就 是 计算 机 花 在 玩 游戏 上 的 时 间 。 





下 一 步 去 同 何 方 








在 这 本 书 中 ， 我 有 意 回 避 对 人 工 智能 的 未 来 进行 过 多 的 猜测 ， 因 为 
我 是 一 名 工程 师 ， 而 不 是 哲学 家 、 经 济 学 家 或 历史 学 家 。 但 我 相信 ， 我 
们 已 经 从 这 些 乔 能 机 器 的 发 展 过 程 中 看 到 了 足够 多 的 证 据 ， 我 可 以 满怀 
信心 地 谈论 未 来 的 一 些 事情 《尽管 其 中 许多 事情 可 能 需要 几 个 世纪 ， 而 
非 几 十 年 ， 才 能 实现 ) 。 


首先 ， 我 们 在 未 来 创建 的 自动 机 将 会 始终 休 循 程序 。 因 为 它们 会 受 
到 我 们 用 来 构建 这 些 自动 机 的 媒介 以 及 我 们 生活 的 世界 物理 定律 的 约 
束 。 这 些 机 右 将 会 遵循 越 来 越 复 杂 的 程序 。 辨 别 它 们 在 做 什么 事情 也 会 
变 得 越 来 越 困 难 ， 但 是 我 们 始终 有 可 能 将 它们 执行 的 每 一 个 动作 垦 济 到 
一 组 确定 的 指令 。 三 一 些 哲学 家 认为 ， 这 表明 机 器 永远 不 会 思 着 。 二 
我 个 人 的 信念 是 ， 人 类 也 是 机 器 ， 我 们 是 模拟 机 顺 ， 如 果 我 们 相信 人 类 
可 以 思考 ， 那 么 就 没有 什么 能 阻止 我 们 有 朝 一 日 设计 出 可 以 思考 的 数字 
计算 机 。 我 们 的 机 费 总 有 一 天 会 思考 ， 这 是 大 势 所 趋 ， 它 们 会 产生 情 
感 、 观 点 和 自我 保护 的 愿望 ， 这 些 总 有 一 天 会 与 我 们 人 类 发 生 冲 突 。 























其 次 ， 我 们 会 继续 设计 能 够 越 来 越 准确 地 复制 人 类 智力 和 行为 的 机 
侣 ， 直 到 它们 的 感知 和 推理 能 力 与 我 们 自己 做 这 些 事情 的 能 力 之 间 没 有 
明显 的 区 别 ， 而 且 机 需 在 很 多 方面 将 会 比 我 们 更 优秀 。 早 在 沃 康 松 和 他 
的 同时 代 人 试图 创造 出 外 形 和 行为 都 像 人 类 的 机 器 人 之 前 ， 我 们 残 一 直 
在 答 试 这 样 做 。 





随 着 我 们 继续 设计 更 好 的 自动 机 ， 这 些 工作 将 不 可 避免 地 助长 一 种 
观念 : 这 些 机 器 对 人 类 是 一 种 威胁 ， 它 们 会 偷 走 我 们 的 工作 ， 破 坏 我 们 
的 生计 。 至 少 ， 这 些 机 器 会 让 我 们 感到 不 舒服 ， 因 为 它们 与 我 们 有 着 局 
人 的 相似 之 处 。 还 记得 吗 ， 沃 康 松 本 人 也 被 过 关闭 了 他 的 一 个 工作 室 ， 


AiR AU AU AIRE RIR”. 三 从 有 茶 种 程度 上 讲 ， 这 些 机 顺 
确实 会 对 我 们 构成 威胁 : 机 器 抢 走 人 们 的 工作 正 是 因为 它们 能 以 更 低 的 
成 本 完成 这 些 工 作 。 机 占 人 将 成 为 未 来 政客 指 贡 的 “移民 *”， 它 们 的 创造 
者 会 小 心细 经 地 推销 它们 ， 就 像 BM 小 心 翼 经 地 定位 “ 沃 森 ” 一 样 。 这 将 
要 求 我 们 的 领导 者 做 出 深思 熬 虑 的 决定 ， 以 确保 改进 技术 所 带 来 的 利益 
得 到 公平 分 配 ， 而 且 我 们 应 该 对 这 些 利益 抱 有 同样 的 期 望 。 











但 是 ， 无 论 我 们 的 社会 能 够 多 么 好 地 接纳 这 些 智 能 体 ， 只 要 技术 
《我 们 的 硬件 、 我 们 的 理论 和 它们 青 后 的 软件 以 构 ) 继续 改进 ， 我 们 束 
会 继续 设计 它们 ， 使 它们 达到 并 超越 我 们 的 能 力 。 其 中 一 些 设计 机 器 的 
行为 将 由 经 济 和 商业 驱动 ， 但 设计 此 类 机 器 的 动力 在 经 济 动机 消失 之 后 
仍 会 持续 很 久 。 按 照 我 们 的 形象 制造 机 器 是 人 类 努力 的 体现 ， 人 类 天 性 
的 某 些 特质 将 会 迫使 我 们 继续 这 项 工作 ， 这 些 特 质 包 括 好 奇 、 审 美 、 做 
EMER, 但 主要 是 好 奇 和 审美 。 






































1. 这 在 我 们 用 来 构建 这 些 自动 机 硬件 的 物理 限制 范围 内 是 正确 的 。 如 果 我 们 开发 出 可 
行 的 量子 计算 机 ， 由 于 量子 效应 ， 退 踪 行 为 可 能 会 变 得 更 加 困难 。 



































2. 这 就 是 所 谓 的 “中 文 屋 论证 *”(Chinese Room Argument) 。 
3. Gaby Wood,“Living Dolls:A Magical History of the Quest for Mechanical Life by Gaby 
Wood,” The 


Guardian, February 15,2002. https://www.theguardian.com/books/2002/feb/16/extract.gabywood. 


致谢 


如 果 没 有 接 下 来 提 到 的 在 技术 突破 背后 付出 了 辛勤 工作 的 诸多 研究 
员 和 工程 师 ， 以 及 报道 了 他 们 工作 中 更 多 有 人 和 情 味 的 细 市 的 记者 ， 我 不 
可 能 写 出 这 本 书 。 从 茶 种 意义 上 讲 ， 这 本 书 对 我 而 言 很 容易 写 ， 因 为 这 
些 研究 者 已 经 完成 了 大 部 分 的 艰苦 工作 。 他 们 花 了 无 数 时 间 进 行 实验 、 
研究 ， 记 录 下 他 们 的 发 现 。 我 写 这 本 书 的 主要 任务 是 把 他 们 的 研究 成 果 
整理 并 组 织 成 一 种 更 容易 理解 的 形式 。 








许多 人 和 组 织 都 对 这 本 书 的 写作 给 予 了 帮助 。 在 写作 过 程 中 ， 我 的 
家 人 提供 了 宝 贯 的 文 持 。 这 其 中 包括 我 的 妻子 萨 拉 〈Sarah) ， 她 阅读 
了 远 多 于 我 预期 的 书稿 ， 还 有 我 的 父母 和 兄长 ， 是 他 们 最 早 让 我 接触 到 
计算 机 。 泰 莎 科技 (Teza Technologies) 非常 慷慨 地 找到 了 一 种 方式 ， 
满足 我 在 公司 工作 期 间 用 晚上 和 周末 的 时 间 写 作 这 本 书 的 愿望 。 泰 莎 科 
技 的 迈克 尔 : 塔 克 (Michael Tucker) 审阅 了 全 部 书稿 ， 并 提供 了 有 益 的 
反馈 。 打 省 理工 学 院 出 版 社 的 编辑 人 员 ， 包 括 玛 丽 - 勒 夫人 金 : 李 (Marie 
Lufkin Lee) , 3#- Er (Marcy Ross) il oe HEU p IER 
(Christine Savage) ， 在 这 个 过 程 中 表现 出 了 极 高 的 专业 素质 ， 并 给 予 
了 很 大 帮助 ， 还 有 阅读 了 早期 书稿 的 匿名 评论 者 同样 提供 了 有 益 的 肥 
局。 此外， 玛丽 : 巴 格 (Mary Bagg) 对 书稿 提出 了 许多 有 益 的 建议 和 评 
论 ， 硅 谷 创 业者 社 群 “南方 公园 公馆 ”(South Park Commons) 在 我 为 这 
本 书 进行 最 后 的 润色 时 ， 提 供 了 很 好 的 社区 支持 。 











许多 朋友 牺牲 了 目 己 的 时 间 ， 为 这 本 书 贡献 了 上 自己 的 想法 ， 包 括 埃 
Ew ARRA (Eric Jankowski) 、 安 德 鲁 . 科 维特 (Andrew Cowitt ) 
和 瑞 奇 : 黄 〈Ricky Wong) . FFE GA WIRE (Daniel Duckworth) 提供 
了 关于 《人 危险 边缘 》 章 而 的 特别 详尽 的 反馈 ， 我 的 父 杀 加 里 - 格 里 什 


(Gary Gerrish) X EFIRI EED DEDE T A aul ca. SIE B SIR. 
本 :韦伯 、 唐 杰 、 往 姆 斯 :法 恩 和 克 里 斯 : 添 林 斯 基 也 很 慷慨 地 抽出 时 间 回 
答 我 在 本 书 中 讨论 的 有 关 他 们 工作 一 些 问 题 ， 并 提供 了 相关 章节 书稿 的 
反馈 。 感谢 机 和 森 : 约 辛 斯 基 (Jason Yosinski) 和 他 的 同事 友好 地 人 允许 我 
在 第 9 章 〈( 关 于 深度 学 习 的 第 一 个 完整 音节) 中 使 用 他 们 的 神经 网 络 图 





片 ， 感 谢 亚 历 克 斯 ' 克 里 泽 夫 斯 基 (Alex Krizhevsky) 允许 我 使 用 
AlexNet 的 图 片 。 





在 我 开始 与 这 本 书 之 前 ， 我 很 幸运 得 到 了 诺 位 导师 正式 或 非 正 式 的 
指导 ， 他 们 辐 我 展示 了 多 年 来 的 深入 思考 。 





